網(wǎng)絡(luò)爬蟲(chóng),又被稱為“網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人”,在FOAF社區(qū)中間,經(jīng)常被稱為“網(wǎng)頁(yè)追逐者”。網(wǎng)絡(luò)爬蟲(chóng),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。
網(wǎng)絡(luò)爬蟲(chóng),按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為:“通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、增量式網(wǎng)絡(luò)爬蟲(chóng)、深層網(wǎng)絡(luò)爬蟲(chóng)”等四種不同類型。實(shí)際上,網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),通常是由幾種爬蟲(chóng)技術(shù)相結(jié)合實(shí)現(xiàn)的。
一、 通用網(wǎng)絡(luò)爬蟲(chóng)
通用網(wǎng)絡(luò)爬蟲(chóng),又稱“全網(wǎng)爬蟲(chóng)”,爬行對(duì)象從一些種子URL(統(tǒng)一資源定位符) 擴(kuò)充到整個(gè)萬(wàn)維網(wǎng),主要為“門戶站點(diǎn)搜索引擎”和“大型Web服務(wù)提供商”采集數(shù)據(jù)。由于商業(yè)原因,它們的技術(shù)細(xì)節(jié)很少被公布出來(lái)。這類網(wǎng)絡(luò)爬蟲(chóng)的爬行范圍和數(shù)量巨大,對(duì)于爬行速度和存儲(chǔ)空間要求較高,對(duì)于爬行頁(yè)面的順序要求相對(duì)較低,同時(shí)由于等待刷新的頁(yè)面太多,通常采用“并行工作”的方式,但需要較長(zhǎng)時(shí)間才能刷新一次頁(yè)面。通用網(wǎng)絡(luò)爬蟲(chóng),雖然存在著一定的缺陷,但它適用于為搜索引擎平臺(tái)搜索廣泛的主題,有較強(qiáng)的應(yīng)用價(jià)值。
二、聚焦網(wǎng)絡(luò)爬蟲(chóng)
聚焦網(wǎng)絡(luò)爬蟲(chóng),又稱“主題網(wǎng)絡(luò)爬蟲(chóng)”,是指選擇性地爬行,那些與預(yù)先定義好的主題相關(guān)的頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng)。和通用網(wǎng)絡(luò)爬蟲(chóng)相比,聚焦網(wǎng)絡(luò)爬蟲(chóng)只需要爬行與主題相關(guān)的頁(yè)面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁(yè)面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。
聚焦網(wǎng)絡(luò)爬蟲(chóng)和通用網(wǎng)絡(luò)爬蟲(chóng)相比,增加了“鏈接評(píng)價(jià)模塊”以及“內(nèi)容評(píng)價(jià)模塊”。聚焦網(wǎng)絡(luò)爬蟲(chóng)爬行策略實(shí)現(xiàn)的關(guān)鍵是,評(píng)價(jià)頁(yè)面內(nèi)容和鏈接的重要性。不同的方法計(jì)算出的重要性不同,由此導(dǎo)致鏈接的訪問(wèn)順序也不同。
三、增量式網(wǎng)絡(luò)爬蟲(chóng)
是指對(duì)已下載網(wǎng)頁(yè)采取增量式更新,和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它能夠在一定程度上保證,所爬行的頁(yè)面是盡可能新的頁(yè)面。
和周期性爬行和刷新頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì)在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁(yè)面 ,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效減少數(shù)據(jù)下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的耗費(fèi),但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。
四、深層網(wǎng)絡(luò)爬蟲(chóng)
Web 頁(yè)面,按存在方式可以分為“表層網(wǎng)頁(yè)”和“深層網(wǎng)頁(yè)”。表層網(wǎng)頁(yè)是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面,以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)為主構(gòu)成的 Web 頁(yè)面。
深層網(wǎng)頁(yè)是那些大部分內(nèi)容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關(guān)鍵詞才能獲得的 Web 頁(yè)面。例如:那些用戶注冊(cè)后內(nèi)容才可見(jiàn)的網(wǎng)頁(yè),就屬于深層網(wǎng)頁(yè)。
隨著計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展,萬(wàn)維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎,例如傳統(tǒng)的“通用搜索引擎”平臺(tái):Google(谷歌)、Yahoo!(雅虎)、百度等,作為一個(gè)輔助人們檢索萬(wàn)維網(wǎng)信息的工具,成為互聯(lián)網(wǎng)用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和渠道。
但是,這些“通用搜索引擎平臺(tái)”也存在著一定的局限性,如:
1、 不同領(lǐng)域、不同職業(yè)、不同背景的用戶,往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果,包含了大量用戶并不關(guān)心的網(wǎng)頁(yè),或者與用戶搜索結(jié)果無(wú)關(guān)的網(wǎng)頁(yè)。
2、 通用搜索引擎的目標(biāo)是,實(shí)現(xiàn)盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源,與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。
3、 萬(wàn)維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫(kù)、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對(duì)這些信息含量密集,且具有一定結(jié)構(gòu)的數(shù)據(jù)無(wú)能為力,不能很好地發(fā)現(xiàn)和獲取。
4、通用搜索引擎,大多提供基于“關(guān)鍵字”的檢索,難以支持根據(jù)語(yǔ)義信息提出的查詢。
為了解決上述問(wèn)題,定向抓取相關(guān)網(wǎng)頁(yè)資源的“聚焦網(wǎng)絡(luò)爬蟲(chóng)”應(yīng)運(yùn)而生。聚焦網(wǎng)絡(luò)爬蟲(chóng),是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所需要的信息。
與“通用網(wǎng)絡(luò)爬蟲(chóng)”不同,聚焦網(wǎng)絡(luò)爬蟲(chóng)并不追求大的覆蓋,而是將目標(biāo)定為抓取“與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè)”,為面向主題的用戶查詢,準(zhǔn)備數(shù)據(jù)資源。
“聚焦網(wǎng)絡(luò)爬蟲(chóng)”的工作原理以及關(guān)鍵技術(shù)概述:
網(wǎng)絡(luò)爬蟲(chóng),是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。
傳統(tǒng)爬蟲(chóng),從一個(gè)或若干初始網(wǎng)頁(yè)的URL(統(tǒng)一資源定位符)開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL(統(tǒng)一資源定位符),在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL(統(tǒng)一資源定位符)放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。
“聚焦網(wǎng)絡(luò)爬蟲(chóng)”的工作流程較為復(fù)雜,需要根據(jù)一定的“網(wǎng)頁(yè)分析算法”過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接,并將其放入等待抓取的URL(統(tǒng)一資源定位符)隊(duì)列。然后,它將根據(jù)一定的搜索策略,從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL(統(tǒng)一資源定位符),并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。
另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過(guò)濾,并建立索引,以便之后的查詢和檢索。對(duì)于“聚焦網(wǎng)絡(luò)爬蟲(chóng)”來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果,還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)。
相對(duì)于通用網(wǎng)絡(luò)爬蟲(chóng),聚焦網(wǎng)絡(luò)爬蟲(chóng)還需要解決三個(gè)主要問(wèn)題:
1、對(duì)抓取目標(biāo)的描述或定義;
2、對(duì)網(wǎng)頁(yè)或數(shù)據(jù)的分析與過(guò)濾;
3、對(duì)URL(統(tǒng)一資源定位符)的搜索策略。
網(wǎng)絡(luò)爬蟲(chóng)遇到的問(wèn)題:
早在2007 年底,互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)量就已經(jīng)超出160 億個(gè),研究表明接近30%的頁(yè)面是重復(fù)的。動(dòng)態(tài)頁(yè)面的存在,客戶端、服務(wù)器端腳本語(yǔ)言的應(yīng)用,使得指向相同Web信息的 URL(統(tǒng)一資源定位符)數(shù)量呈指數(shù)級(jí)增長(zhǎng)。
上述特征使得網(wǎng)絡(luò)爬蟲(chóng)面臨一定的困難,主要體現(xiàn)在 Web信息的巨大容量,使得爬蟲(chóng)在給定的時(shí)間內(nèi),只能下載少量網(wǎng)頁(yè)。有研究表明,沒(méi)有哪個(gè)搜索引擎能夠索引超出16%的互聯(lián)網(wǎng)Web 頁(yè)面,即使能夠提取全部頁(yè)面,也沒(méi)有足夠的空間來(lái)存儲(chǔ)。
為了提高爬行效率,爬蟲(chóng)需要在單位時(shí)間內(nèi)盡可能多的獲取高質(zhì)量頁(yè)面,這是它面臨的難題之一。
當(dāng)前有五種表示頁(yè)面質(zhì)量高低的方式:1、頁(yè)面與爬行主題之間的相似度;2、頁(yè)面在 Web 圖中的入度大??;3、指向它的所有頁(yè)面平均權(quán)值之和;4、頁(yè)面在 Web 圖中的出度大??;5、頁(yè)面的信息位置。
為了提高爬行速度,網(wǎng)絡(luò)爬蟲(chóng)通常會(huì)采取“并行爬行”的工作方式,這種工作方式也導(dǎo)致了新的問(wèn)題:
1、重復(fù)性(并行運(yùn)行的爬蟲(chóng)或爬行線程同時(shí)運(yùn)行時(shí),增加了重復(fù)頁(yè)面);
2、質(zhì)量問(wèn)題(并行運(yùn)行時(shí),每個(gè)爬蟲(chóng)或爬行線程只能獲取部分頁(yè)面,導(dǎo)致頁(yè)面質(zhì)量下降);
3、通信帶寬代價(jià)(并行運(yùn)行時(shí),各個(gè)爬蟲(chóng)或爬行線程之間不可避免要進(jìn)行一些通信,需要耗費(fèi)一定的帶寬資源)。
并行運(yùn)行時(shí),網(wǎng)絡(luò)爬蟲(chóng)通常采用三種方式:
1、獨(dú)立方式(各個(gè)爬蟲(chóng)獨(dú)立爬行頁(yè)面,互不通信);
2、動(dòng)態(tài)分配方式(由一個(gè)中央?yún)f(xié)調(diào)器動(dòng)態(tài)協(xié)調(diào)分配 URL 給各個(gè)爬蟲(chóng));
3、靜態(tài)分配方式(URL 事先劃分給各個(gè)爬蟲(chóng))。
網(wǎng)絡(luò)爬蟲(chóng)到底是什么?它的功能和作用有哪些?
香港云服務(wù)器(免備案)
1核+
CPU
1G+
內(nèi)存
20G+
系統(tǒng)盤
1Mbps+
帶寬(CN2)
適合外貿(mào)、企業(yè)建站、APP服務(wù)
199元/年540元/年
海外虛擬主機(jī)(免備案)
普惠一型
型號(hào)
100M+
容量
50M+
數(shù)據(jù)庫(kù)
5Mbps+
帶寬(CN2)
適合個(gè)人博客、企業(yè)網(wǎng)站
45元/年96元/年
標(biāo)簽:網(wǎng)絡(luò)爬蟲(chóng)
香港服務(wù)器推薦
hellokitty
硅云相關(guān)推薦
- 香港服務(wù)器在哪買?硅云推出長(zhǎng)期續(xù)費(fèi)同優(yōu)惠價(jià)的套餐
- 外貿(mào)虛擬主機(jī),硅云為何成為數(shù)萬(wàn)外貿(mào)獨(dú)立站的選擇,只因質(zhì)量好?
- 聊一聊香港虛擬主機(jī),用戶測(cè)評(píng)推薦選哪家好?
- 聊一聊適合做外貿(mào)獨(dú)立站的服務(wù)器,硅云香港服務(wù)器為何脫穎而出
- Bluehost主機(jī)暫停中國(guó)業(yè)務(wù)后,怎么遷移到其他虛擬主機(jī)?遷移教程
- 糖果主機(jī)SugarHost用不了,怎么遷移到硅云虛擬主機(jī)?
- 用香港服務(wù)器托管外貿(mào)獨(dú)立站,最大的優(yōu)勢(shì)是什么?
- 外貿(mào)獨(dú)立站怎么選服務(wù)器?不同外貿(mào)服務(wù)器性價(jià)比測(cè)評(píng)總結(jié)、廠商深度對(duì)比