隨著“大數(shù)據(jù)時(shí)代”的來臨,數(shù)據(jù)資源的價(jià)值日益凸顯,很多互聯(lián)網(wǎng)公司利用網(wǎng)絡(luò)爬蟲技術(shù)獲取數(shù)據(jù)資源,開展商業(yè)模式創(chuàng)新,其中取得成功的案例不在少數(shù)。例如,今日頭條利用數(shù)據(jù)算法開啟新聞精準(zhǔn)推送;Facebook運(yùn)用數(shù)據(jù)精準(zhǔn)推送廣告等。然而,隨著網(wǎng)絡(luò)爬蟲技術(shù)的普及應(yīng)用,潛藏其中的法律風(fēng)險(xiǎn)不斷爆發(fā)。2019年被稱為“爬蟲入刑”元年,這一年,摩羯科技、新顏科技、公信寶、同盾科技等諸多大數(shù)據(jù)公司因“爬蟲業(yè)務(wù)”被查,公司高管紛紛被警方拘走;大量以爬蟲為主營業(yè)務(wù)的公司倒閉,互聯(lián)網(wǎng)企業(yè)聞“爬蟲”色變,噤若寒蟬!
到底什么是網(wǎng)絡(luò)爬蟲技術(shù)?網(wǎng)絡(luò)爬蟲技術(shù)能不能使用?爬蟲協(xié)議是否有法律效力?網(wǎng)絡(luò)爬蟲技術(shù)和數(shù)據(jù)安全的法律邊界在哪里?使用網(wǎng)絡(luò)爬蟲技術(shù)會(huì)不會(huì)觸發(fā)不正當(dāng)競爭?如何做好網(wǎng)絡(luò)爬蟲技術(shù)的合規(guī)運(yùn)營?為討論上述問題,筆者將于近期推出系列文章,旨在回應(yīng)社會(huì)關(guān)切,為讀者解疑釋惑,助力互聯(lián)網(wǎng)企業(yè)合規(guī)運(yùn)營。
本篇為系列文章第一篇:什么是網(wǎng)絡(luò)爬蟲技術(shù)?
一、爬蟲技術(shù)的概念和基本原理
網(wǎng)絡(luò)爬蟲技術(shù)(Web Crawler),也被稱為網(wǎng)絡(luò)蜘蛛,蜘蛛爬蟲(Web Spider),其本質(zhì)是一段編程程序,通過該段編程程序,可以將某個(gè)網(wǎng)站的信息,按照編程指定的規(guī)則提取對(duì)應(yīng)的網(wǎng)頁數(shù)據(jù),并下載到本地形成互聯(lián)網(wǎng)網(wǎng)頁鏡像備份的程序。網(wǎng)絡(luò)爬蟲技術(shù)最早運(yùn)用于搜索引擎,百度搜索、谷歌搜索的技術(shù)本質(zhì)都是網(wǎng)絡(luò)爬蟲技術(shù)。
網(wǎng)絡(luò)爬蟲技術(shù)的基本原理是,首先設(shè)定需要爬取的目的,根據(jù)目的尋找對(duì)應(yīng)爬蟲網(wǎng)站的統(tǒng)一資源定位符(簡稱為“URL”),訪問URL的對(duì)應(yīng)網(wǎng)頁并進(jìn)行頁面解析,提取該URL上所有的URL,進(jìn)行二次訪問和二次頁面解析;如二次訪問的URL網(wǎng)頁還存在URL,再次提取所有的URL,并進(jìn)行三次訪問和三次頁面解析。如此循環(huán)爬取,直至所有的URL隊(duì)列全部爬取完畢或滿足爬取目的為止。詳見下圖爬蟲編程示例:
*注:統(tǒng)一資源定位符(URL)是Internet上標(biāo)準(zhǔn)資源的地址。URL指示資源的位置以及用于訪問它的協(xié)議。互聯(lián)網(wǎng)上的每個(gè)文件都有一個(gè)唯一的URL,它包含的信息指出文件的具體位置。

示例:爬取貓眼電影網(wǎng)上top100的電影
雖然網(wǎng)絡(luò)爬蟲技術(shù)起先運(yùn)用于搜索引擎,但隨著互聯(lián)網(wǎng)生態(tài)的發(fā)展變化,搜索引擎爬蟲技術(shù)無法滿足人民多樣化的檢索需求,因此聚焦網(wǎng)絡(luò)爬蟲技術(shù)(Focused Web Crawler)、增量式網(wǎng)絡(luò)爬蟲技術(shù)(Incremental Web Crawler)和深層網(wǎng)絡(luò)爬蟲技術(shù)(Deep Web Crawler)應(yīng)運(yùn)而生。
聚焦網(wǎng)絡(luò)爬蟲技術(shù)(Focused Web Crawler)是在搜索引擎爬蟲技術(shù)的基礎(chǔ)上改進(jìn)的技術(shù)。它主要在搜索引擎爬蟲技術(shù)的基礎(chǔ)上通過增加一段網(wǎng)頁分析算法程序,過濾掉冗余無關(guān)的網(wǎng)頁數(shù)據(jù),只留存與爬取目的密切相關(guān)的數(shù)據(jù),從而提高爬取數(shù)據(jù)的效率和質(zhì)量。增量式網(wǎng)絡(luò)爬蟲技術(shù)(Incremental Web Crawler)是對(duì)已爬取的網(wǎng)頁數(shù)據(jù)定期做增量更新的技術(shù);深層網(wǎng)絡(luò)爬蟲技術(shù)(Deep Web Crawler)是能夠?qū)﹄[藏在搜索表單后網(wǎng)絡(luò)頁面進(jìn)行深度爬取數(shù)據(jù)的技術(shù)。
二、反爬蟲技術(shù)的使用
網(wǎng)絡(luò)爬蟲技術(shù)的廣泛應(yīng)用使得互聯(lián)網(wǎng)流量劇增,互聯(lián)網(wǎng)世界盛傳“互聯(lián)網(wǎng)流量中有50%的流量是爬蟲流量,而非真實(shí)流量”。不可否認(rèn),雖然網(wǎng)絡(luò)爬蟲技術(shù)有利于減少互聯(lián)網(wǎng)企業(yè)的人工成本,為互聯(lián)網(wǎng)發(fā)展提供了極大的幫助,但海量的爬蟲流量占用大量網(wǎng)絡(luò)帶寬,加劇被爬網(wǎng)站的服務(wù)器負(fù)擔(dān),網(wǎng)絡(luò)爬蟲技術(shù)甚至?xí)兿鄬?duì)服務(wù)器發(fā)動(dòng)Dos攻擊。為此,被爬網(wǎng)站紛紛采取反制措施,利用robots協(xié)議,網(wǎng)絡(luò)爬蟲檢測等手段,反向制止網(wǎng)絡(luò)爬蟲肆意爬取網(wǎng)站數(shù)據(jù)。
所謂的robots協(xié)議,是指網(wǎng)站在根目錄下設(shè)置編程文本,規(guī)定外部爬蟲爬取時(shí),網(wǎng)站哪些內(nèi)容可以爬取,哪些不行。由于外部爬蟲訪問網(wǎng)站首先需要訪問根目錄文件,因此外部爬蟲都要經(jīng)過網(wǎng)站的robots協(xié)議。如果外部爬蟲遵守網(wǎng)站的robots協(xié)議,此類爬蟲被稱為善意爬蟲(Good Spider),如果外部爬蟲不遵守網(wǎng)站的robots協(xié)議,此類爬蟲被稱為惡意爬蟲(Bad Spider)。下圖為百度robots協(xié)議示例:

示例:百度robots協(xié)議(這里的圖片變形了
所謂的網(wǎng)絡(luò)爬蟲檢測手段,是指通過檢測訪問對(duì)象的身份是否是智能化的,以判斷訪客身份。最常見的檢測手段主要有:訪客訪問網(wǎng)站時(shí)需要進(jìn)行加減乘除計(jì)算、向右拖動(dòng)滑塊填充拼圖、選中指定物品或驗(yàn)證字段等等。例如下圖示例:

示例一:12306購票前需要選中指定物品

示例二:i廈門登陸需要向右拖動(dòng)滑塊填充拼圖
三、爬蟲技術(shù)的法律規(guī)定
經(jīng)筆者檢索,規(guī)范爬蟲技術(shù)相關(guān)的法律法規(guī)主要分為:法律、司法解釋、部門規(guī)章及行業(yè)自律公約。
(一)法律
(二)司法解釋
(三)部門規(guī)章
(四)行業(yè)自律公約
參考文獻(xiàn):
(1)李慧敏,孫佳亮.論爬蟲抓取數(shù)據(jù)行為的法律邊界[J].電子知識(shí)產(chǎn)權(quán),2018(12):58-67.
(2)于娟、劉強(qiáng),主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 計(jì)算機(jī)工程與科學(xué),2015(2):231-237.