Golang Page.AddTargetRequestWithHeaderFileの例

プログラミング言語: Golang

名前空間/パッケージ名: github.com/hu17889/go_spider/core/common/page

クラス/型: Page

メソッド/関数: AddTargetRequestWithHeaderFile

hotexamples.comのコード掲載数: 2

Golang Page.AddTargetRequestWithHeaderFile - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたGolangのgithub.com/hu17889/go_spider/core/common/page.Page.AddTargetRequestWithHeaderFileの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

IsSucc(15)

GetHtmlParser(13)

Errormsg(11)

AddField(10)

AddTargetRequests(6)

SetSkip(5)

SetStatus(5)

GetBodyStr(4)

GetRequest(4)

GetUrlTag(3)

SetBodyStr(3)

GetJson(2)

AddTargetRequest(2)

AddTargetRequestWithParams(2)

SetCookies(2)

SetHeader(2)

AddTargetRequestWithHeaderFile(2)

GetCookies(1)

GetJsonMap(1)

GetSkip(1)

GetTargetRequests(1)

GetPageItems(1)

コード例 #1

ファイルを表示

ファイル: main.go プロジェクト: xujb/go_spider

// Parse html dom here and record the parse result that we want to Page.
// Package goquery (http://godoc.org/github.com/PuerkitoBio/goquery) is used to parse html.
func (this *MyPageProcesser) Process(p *page.Page) {
	if !p.IsSucc() {
		println(p.Errormsg())
		return
	}

	query := p.GetHtmlParser()

	query.Find(`div[class="wx-rb bg-blue wx-rb_v1 _item"]`).Each(func(i int, s *goquery.Selection) {
		name := s.Find("div.txt-box > h3").Text()
		href, _ := s.Attr("href")

		fmt.Printf("WeName:%v link:http://http://weixin.sogou.com%v \r\n", name, href)
		// the entity we want to save by Pipeline
		p.AddField("name", name)
		p.AddField("href", href)
	})

	next_page_href, _ := query.Find("#sogou_next").Attr("href")
	if next_page_href == "" {
		p.SetSkip(true)
	} else {
		p.AddTargetRequestWithHeaderFile("http://weixin.sogou.com/weixin"+next_page_href, "html", "weixin.sogou.com.json")
	}

}

コード例 #2

ファイルを表示

ファイル: spider.go プロジェクト: luzh0422/spider-docker

/*
 ** 解析页面，把粉丝的信息存入dynamodb，同时把接下来要爬取的url存入sqs
 */
func (this *MyPageProcesser) Process(p *page.Page) {
	if !p.IsSucc() {
		glog.Errorln(p.Errormsg())
		return
	}
	/*
	 ** 打印爬取得页面
	 */
	glog.Infoln(p)
	query := p.GetHtmlParser()

	if Urls[i] == "weibo.cn" {
		i = i + 1
	}

	if UrlsLevel[i] == 0 {
		glog.Infoln("layer:", crawlUrl.Layer)
		this.w.GetNextPageUrl(query, p)
		this.w.GetFriendsUrl(query, p)
	} else if UrlsLevel[i] == 1 {
		this.w.GetFriendsInfo(query)
	}
	// if crawlUrl.Layer == 0 {
	// } else if crawlUrl.Layer == 1 {
	// 	glog.Infoln("layer:", crawlUrl.Layer)
	// 	this.w.GetNextPageUrl(query, p)
	// 	this.w.GetFFUrl(query)
	// } else if crawlUrl.Layer == 2 {
	// 	glog.Infoln("layer:", crawlUrl.Layer)
	// 	this.w.GetFFInfo(query)
	// }
	//

	header_num := rand.Intn(9)
	header_json := headerJson[header_num]
	i = i + 1
	p.AddTargetRequestWithHeaderFile(Urls[i], "html", header_json)

}