Exemplos de Page.AddTargetRequestWithHeaderFile em Golang

Linguagem de programação: Golang

Espaço para nome / nome do pacote: github.com/hu17889/go_spider/core/common/page

Classe / Tipo: Page

Método / Função: AddTargetRequestWithHeaderFile

Exemplos em hotexamples.com: 2

Page.AddTargetRequestWithHeaderFile em Golang - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de github.com/hu17889/go_spider/core/common/page.Page.AddTargetRequestWithHeaderFile em Golang extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

IsSucc(15)

GetHtmlParser(13)

Errormsg(11)

AddField(10)

AddTargetRequests(6)

SetSkip(5)

SetStatus(5)

GetBodyStr(4)

GetRequest(4)

GetUrlTag(3)

SetBodyStr(3)

GetJson(2)

AddTargetRequest(2)

AddTargetRequestWithParams(2)

SetCookies(2)

SetHeader(2)

AddTargetRequestWithHeaderFile(2)

GetCookies(1)

GetJsonMap(1)

GetSkip(1)

GetTargetRequests(1)

GetPageItems(1)

Métodos Frequentes

IsSucc (15)

GetHtmlParser (13)

Errormsg (11)

AddField (10)

AddTargetRequests (6)

SetSkip (5)

SetStatus (5)

GetBodyStr (4)

GetRequest (4)

GetUrlTag (3)

Métodos Frequentes

SetBodyStr (3)

GetJson (2)

AddTargetRequest (2)

AddTargetRequestWithParams (2)

SetCookies (2)

SetHeader (2)

AddTargetRequestWithHeaderFile (2)

GetCookies (1)

GetJsonMap (1)

GetSkip (1)

GetTargetRequests (1)

GetPageItems (1)

Métodos Frequentes

GetTargetRequests (1)

GetPageItems (1)

Relacionados

Marshal

PointerOf

NewScheduler

Connect

FakeRepository

CopyFile

DepthFirst

al_get_audio_stream_depth

Gemm

InvalidateSession

Related in langs

Squire_LoadConfig (PHP)

bebop_on_json (PHP)

RCRLogic (C#)

MixerValue (C#)

tls_alloc_app_context (C++)

IntEnable (C++)

IndexWriter (Java)

CharacterIterator (Java)

lcm (Python)

get_jails_index (Python)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: main.go Projeto: xujb/go_spider

// Parse html dom here and record the parse result that we want to Page. // Package goquery (http://godoc.org/github.com/PuerkitoBio/goquery) is used to parse html. func (this *MyPageProcesser) Process(p *page.Page) { if !p.IsSucc() { println(p.Errormsg()) return } query := p.GetHtmlParser() query.Find(`div[class="wx-rb bg-blue wx-rb_v1 _item"]`).Each(func(i int, s *goquery.Selection) { name := s.Find("div.txt-box > h3").Text() href, _ := s.Attr("href") fmt.Printf("WeName:%v link:http://http://weixin.sogou.com%v \r\n", name, href) // the entity we want to save by Pipeline p.AddField("name", name) p.AddField("href", href) }) next_page_href, _ := query.Find("#sogou_next").Attr("href") if next_page_href == "" { p.SetSkip(true) } else { p.AddTargetRequestWithHeaderFile("http://weixin.sogou.com/weixin"+next_page_href, "html", "weixin.sogou.com.json") } }

Exemplo n.º 2

0

Exibir arquivo

Arquivo: spider.go Projeto: luzh0422/spider-docker

/* ** 解析页面，把粉丝的信息存入dynamodb，同时把接下来要爬取的url存入sqs */ func (this *MyPageProcesser) Process(p *page.Page) { if !p.IsSucc() { glog.Errorln(p.Errormsg()) return } /* ** 打印爬取得页面 */ glog.Infoln(p) query := p.GetHtmlParser() if Urls[i] == "weibo.cn" { i = i + 1 } if UrlsLevel[i] == 0 { glog.Infoln("layer:", crawlUrl.Layer) this.w.GetNextPageUrl(query, p) this.w.GetFriendsUrl(query, p) } else if UrlsLevel[i] == 1 { this.w.GetFriendsInfo(query) } // if crawlUrl.Layer == 0 { // } else if crawlUrl.Layer == 1 { // glog.Infoln("layer:", crawlUrl.Layer) // this.w.GetNextPageUrl(query, p) // this.w.GetFFUrl(query) // } else if crawlUrl.Layer == 2 { // glog.Infoln("layer:", crawlUrl.Layer) // this.w.GetFFInfo(query) // } // header_num := rand.Intn(9) header_json := headerJson[header_num] i = i + 1 p.AddTargetRequestWithHeaderFile(Urls[i], "html", header_json) }