狠狠躁夜夜躁人人爽天天爽,国产一区二区三区美女,国产动漫一区二区三区在线观看

天衡研究

天衡研究 | 數(shù)據(jù)安全合規(guī)之爬蟲篇（一）：什么是網(wǎng)絡(luò)爬蟲技術(shù)

2021-08-09 17:47:41

隨著“大數(shù)據(jù)時(shí)代”的來臨，數(shù)據(jù)資源的價(jià)值日益凸顯，很多互聯(lián)網(wǎng)公司利用網(wǎng)絡(luò)爬蟲技術(shù)獲取數(shù)據(jù)資源，開展商業(yè)模式創(chuàng)新，其中取得成功的案例不在少數(shù)。例如，今日頭條利用數(shù)據(jù)算法開啟新聞精準(zhǔn)推送；Facebook運(yùn)用數(shù)據(jù)精準(zhǔn)推送廣告等。然而，隨著網(wǎng)絡(luò)爬蟲技術(shù)的普及應(yīng)用，潛藏其中的法律風(fēng)險(xiǎn)不斷爆發(fā)。2019年被稱為“爬蟲入刑”元年，這一年，摩羯科技、新顏科技、公信寶、同盾科技等諸多大數(shù)據(jù)公司因“爬蟲業(yè)務(wù)”被查，公司高管紛紛被警方拘走；大量以爬蟲為主營業(yè)務(wù)的公司倒閉，互聯(lián)網(wǎng)企業(yè)聞“爬蟲”色變，噤若寒蟬！

到底什么是網(wǎng)絡(luò)爬蟲技術(shù)？網(wǎng)絡(luò)爬蟲技術(shù)能不能使用？爬蟲協(xié)議是否有法律效力？網(wǎng)絡(luò)爬蟲技術(shù)和數(shù)據(jù)安全的法律邊界在哪里？使用網(wǎng)絡(luò)爬蟲技術(shù)會(huì)不會(huì)觸發(fā)不正當(dāng)競爭？如何做好網(wǎng)絡(luò)爬蟲技術(shù)的合規(guī)運(yùn)營？為討論上述問題，筆者將于近期推出系列文章，旨在回應(yīng)社會(huì)關(guān)切，為讀者解疑釋惑，助力互聯(lián)網(wǎng)企業(yè)合規(guī)運(yùn)營。

本篇為系列文章第一篇：什么是網(wǎng)絡(luò)爬蟲技術(shù)？

一、爬蟲技術(shù)的概念和基本原理

網(wǎng)絡(luò)爬蟲技術(shù)（Web Crawler）,也被稱為網(wǎng)絡(luò)蜘蛛，蜘蛛爬蟲（Web Spider）,其本質(zhì)是一段編程程序，通過該段編程程序，可以將某個(gè)網(wǎng)站的信息，按照編程指定的規(guī)則提取對(duì)應(yīng)的網(wǎng)頁數(shù)據(jù)，并下載到本地形成互聯(lián)網(wǎng)網(wǎng)頁鏡像備份的程序。網(wǎng)絡(luò)爬蟲技術(shù)最早運(yùn)用于搜索引擎，百度搜索、谷歌搜索的技術(shù)本質(zhì)都是網(wǎng)絡(luò)爬蟲技術(shù)。

網(wǎng)絡(luò)爬蟲技術(shù)的基本原理是，首先設(shè)定需要爬取的目的，根據(jù)目的尋找對(duì)應(yīng)爬蟲網(wǎng)站的統(tǒng)一資源定位符（簡稱為“URL”），訪問URL的對(duì)應(yīng)網(wǎng)頁并進(jìn)行頁面解析，提取該URL上所有的URL，進(jìn)行二次訪問和二次頁面解析；如二次訪問的URL網(wǎng)頁還存在URL，再次提取所有的URL，并進(jìn)行三次訪問和三次頁面解析。如此循環(huán)爬取，直至所有的URL隊(duì)列全部爬取完畢或滿足爬取目的為止。詳見下圖爬蟲編程示例：

*注：統(tǒng)一資源定位符（URL）是Internet上標(biāo)準(zhǔn)資源的地址。URL指示資源的位置以及用于訪問它的協(xié)議。互聯(lián)網(wǎng)上的每個(gè)文件都有一個(gè)唯一的URL，它包含的信息指出文件的具體位置。

示例：爬取貓眼電影網(wǎng)上top100的電影

雖然網(wǎng)絡(luò)爬蟲技術(shù)起先運(yùn)用于搜索引擎，但隨著互聯(lián)網(wǎng)生態(tài)的發(fā)展變化，搜索引擎爬蟲技術(shù)無法滿足人民多樣化的檢索需求，因此聚焦網(wǎng)絡(luò)爬蟲技術(shù)（Focused Web Crawler）、增量式網(wǎng)絡(luò)爬蟲技術(shù)（Incremental Web Crawler）和深層網(wǎng)絡(luò)爬蟲技術(shù)（Deep Web Crawler）應(yīng)運(yùn)而生。

聚焦網(wǎng)絡(luò)爬蟲技術(shù)（Focused Web Crawler）是在搜索引擎爬蟲技術(shù)的基礎(chǔ)上改進(jìn)的技術(shù)。它主要在搜索引擎爬蟲技術(shù)的基礎(chǔ)上通過增加一段網(wǎng)頁分析算法程序，過濾掉冗余無關(guān)的網(wǎng)頁數(shù)據(jù)，只留存與爬取目的密切相關(guān)的數(shù)據(jù)，從而提高爬取數(shù)據(jù)的效率和質(zhì)量。增量式網(wǎng)絡(luò)爬蟲技術(shù)（Incremental Web Crawler）是對(duì)已爬取的網(wǎng)頁數(shù)據(jù)定期做增量更新的技術(shù)；深層網(wǎng)絡(luò)爬蟲技術(shù)（Deep Web Crawler）是能夠?qū)﹄[藏在搜索表單后網(wǎng)絡(luò)頁面進(jìn)行深度爬取數(shù)據(jù)的技術(shù)。

二、反爬蟲技術(shù)的使用

網(wǎng)絡(luò)爬蟲技術(shù)的廣泛應(yīng)用使得互聯(lián)網(wǎng)流量劇增，互聯(lián)網(wǎng)世界盛傳“互聯(lián)網(wǎng)流量中有50%的流量是爬蟲流量，而非真實(shí)流量”。不可否認(rèn)，雖然網(wǎng)絡(luò)爬蟲技術(shù)有利于減少互聯(lián)網(wǎng)企業(yè)的人工成本，為互聯(lián)網(wǎng)發(fā)展提供了極大的幫助，但海量的爬蟲流量占用大量網(wǎng)絡(luò)帶寬，加劇被爬網(wǎng)站的服務(wù)器負(fù)擔(dān)，網(wǎng)絡(luò)爬蟲技術(shù)甚至?xí)兿鄬?duì)服務(wù)器發(fā)動(dòng)Dos攻擊。為此，被爬網(wǎng)站紛紛采取反制措施，利用robots協(xié)議，網(wǎng)絡(luò)爬蟲檢測等手段，反向制止網(wǎng)絡(luò)爬蟲肆意爬取網(wǎng)站數(shù)據(jù)。

所謂的robots協(xié)議，是指網(wǎng)站在根目錄下設(shè)置編程文本，規(guī)定外部爬蟲爬取時(shí)，網(wǎng)站哪些內(nèi)容可以爬取，哪些不行。由于外部爬蟲訪問網(wǎng)站首先需要訪問根目錄文件，因此外部爬蟲都要經(jīng)過網(wǎng)站的robots協(xié)議。如果外部爬蟲遵守網(wǎng)站的robots協(xié)議，此類爬蟲被稱為善意爬蟲（Good Spider），如果外部爬蟲不遵守網(wǎng)站的robots協(xié)議，此類爬蟲被稱為惡意爬蟲（Bad Spider）。下圖為百度robots協(xié)議示例：

示例：百度robots協(xié)議（這里的圖片變形了

所謂的網(wǎng)絡(luò)爬蟲檢測手段，是指通過檢測訪問對(duì)象的身份是否是智能化的，以判斷訪客身份。最常見的檢測手段主要有：訪客訪問網(wǎng)站時(shí)需要進(jìn)行加減乘除計(jì)算、向右拖動(dòng)滑塊填充拼圖、選中指定物品或驗(yàn)證字段等等。例如下圖示例：

示例一：12306購票前需要選中指定物品

示例二：i廈門登陸需要向右拖動(dòng)滑塊填充拼圖

三、爬蟲技術(shù)的法律規(guī)定

經(jīng)筆者檢索，規(guī)范爬蟲技術(shù)相關(guān)的法律法規(guī)主要分為：法律、司法解釋、部門規(guī)章及行業(yè)自律公約。

（一）法律

（二）司法解釋

（三）部門規(guī)章

（四）行業(yè)自律公約

參考文獻(xiàn)：
（1）李慧敏，孫佳亮.論爬蟲抓取數(shù)據(jù)行為的法律邊界[J].電子知識(shí)產(chǎn)權(quán),2018(12):58-67.
（2）于娟、劉強(qiáng)，主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 計(jì)算機(jī)工程與科學(xué),2015(2):231-237.