A. 如何應對網路爬蟲帶來的安全風險
我們的網站上或多或少存在一些頁面涉及到網站的敏感信息不希望在搜索引擎上公開;還有一些頁面是根本沒必要被搜索引擎收錄的:比如網站的管理後台入口。對於SEOER而言有一些頁面如果被收錄後反而會影響關鍵詞著陸頁的排名,或者降低了著陸頁的轉化率,比如電子商務網站的商品評論頁。那麼我們通過什麼樣的方法可以限制搜索引擎收錄此類頁面呢?
1994年6月30日,在經過搜索引擎人員以及被搜索引擎抓取的網站站長共同討論後,正式發布了一份行業規范,即robots.txt協議。這個協議既非法律,也非命令,而是一個自律性的契約,需要各種搜索引擎自覺去遵守這個協議。這個協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
當一個網路爬蟲訪問一個站點時它會首先檢查該站點根目錄下是否存在robots.txt;如果沒有對網站的robots協議進行設置,則爬蟲會盡可能的收錄所有能夠訪問到的頁面,而如果存在該robots協議文件,爬蟲則會遵守該協議,忽略那些不希望被抓取的頁面鏈接,下面我們以http://www..com/robots.txt為例:
User-agent: Googlebot
Disallow: /
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
網路是不希望谷歌搜索引擎的Googlebot爬蟲收錄/ 、/shifen 、/homepage/ 、/cpro 目錄下以及所有/s開頭的搜索結果頁面的。
User-agent:表示爬蟲的名字
Allow:表示允許爬蟲訪問的頁面
Disallow:是指禁止爬蟲訪問的頁面
Visit-time:只有在visit-time指定的時間段里,robot才可以訪問指定的URL
Request-rate: 用來限制URL的讀取頻率
除了上述robots.txt文件之外,我們還可以針對每一個頁面,在網頁的原信息中設置該頁面是否允許被收錄:
noindex: 不索引此網頁
nofollow:不通過此網頁的鏈接索引搜索其它的網頁
none: 將忽略此網頁,等價於「noindex,nofollow」
index: 索引此網頁
follow:通過此網頁的鏈接索引搜索其它的網頁
all: 搜索引擎將索引此網頁與繼續通過此網頁的鏈接索引,等價於index,follow。
舉例 〈meta name= 「 Baispider 」 content= 「 none" /〉 是不允許網路蜘蛛索引該頁面,並且不允許爬行該頁面中的所有鏈接。
還有一種方法,就是在超級鏈接的rel屬性中填寫「nofollow」,形如 〈a rel=」nofollow」 href=」*」〉 超級鏈接 〈/a〉 ,表示搜索引擎不要跟蹤鏈接。
但是所有上述方法都是基於Robot的自律性協議,並非強制執行的法律法規。如果遇到不遵守該協議的網路爬蟲瘋狂的抓取網站頁面並對網站性能產生了嚴重影響,更為有效的方使用入侵檢測系統(IDS)入侵防護系統( IPS )網路設備。
B. 爬蟲技術應用合法性引爭議 保障數據安全亟待規制非法爬取數據行為
來源:法治日報——法制網
核心閱讀
在大數據時代的背景下,愈來愈多的市場主體投入巨資收集、整理和挖掘信息。如果任由網路爬蟲任意使用他人通過巨大投入獲取的數據資源,將不利於鼓勵商業投入、產業創新和誠實經營,甚至可能直接違背了數據來源用戶的意願和知情權,最終勢必損害 健康 的競爭機制。
隨著 社會 經濟的快速發展,數據的價值日益凸顯,已然成為企業 科技 創新的必備要素。孫正但企業通過技術手段獲取數據時,數據抓取技術的應用行為是否合理合法,是一個值得深思的問題。
近年來,網路爬蟲「爬取數據」成為熱詞,相關司法案例不斷出現。據不完全統計,近些年涉及網路爬蟲的司法案件達十餘起,其中既包括民事案件,還包括刑事案件。這類案例甚至還有愈演愈烈之勢。
在近日於上海舉行的長三角數據合規論壇(第三期)暨數據爬蟲的法律規制研討會上,上海市人民檢察院研究室副主任陳超然透露,檢察機關正在積極推動企業合規改革試點工作,數據合規正是其中重點。「目前爬蟲爬取數據案件非常普遍,當網路平台或者個人通過技術手段抓取別的平台數據時,這種行為是否合法,平台數據主體是誰,歸誰使用,值得深入研討。」
杭州長三角大數據研究院副院長郭兵認為,數據爬蟲作為中立性的技術,已在互聯網產業領域得到廣泛應用。需要注意的是,如果爬蟲技術不當應用,會對其他競爭者的合法權益造成損害,甚至涉嫌違法或者犯罪,也將對產業的 健康 發展產生非常大的負面影響。
從技術角度看,爬蟲是通過程序去模擬人類上網或者瀏覽網頁、App行為,讓其高效地在網上抓取爬蟲製造者所需要的信息。
歐萊雅中國數字化負責人劉煜晨說,大多數網站拒絕爬蟲訪問,其中的原因既包括商業利益考量,也包括自身網站運營安全的考量。除了爬蟲可能爬到網站不願被爬取的數據以外,網站經營者往往還會擔心爬蟲干擾網站正常運營。
而非正規爬蟲自動持續且高頻地對被爬取方進行訪問,伺服器負載飆升,也會給伺服器帶來「難以承受」之重:應對經驗不足的網站,尤其是中小網站可能會面臨網站打不開、網頁載入極其緩慢、有時甚至直接癱瘓的情況。
新浪集團訴訟總監張喆說,無論是爬蟲還是實現其他目的的技術,就其本身而言,都是中立的,但爬蟲技術的應用不是中立的,技術應用都帶有應用者的目的。這時候不應該評價技術原理,而是需要評價技術用來干什麼,這一行為手段是否具有正當性。
提及網路爬蟲,robots協議是繞不開的話題。robots協議(也稱爬蟲協議)的全稱是「網路爬蟲排除標准」,網站通過robots協議明確警示搜索引擎哪些頁面可以爬取,哪些頁面不能爬取。該協議也被則襲悔行業稱為搜索領域的「君子協定」。
劉煜晨說,當網路爬蟲訪問一個網站,robots協議像立在自己房間門口的一個牌子,告訴外來者誰可以過來,誰不可以過來。但是,這只是一個君子協議,只能起到告示作用,起不到技術防範作用。
實踐中,惡意爬蟲爬取時不遵守網站的robots協議,並可能爬取到不該爬的數據,這種情形並非孤例。小紅書法務負責人曾翔說,惡意爬蟲案例經常發生在內容平台和電商平台。在內容上被爬取的更多是視頻、圖片、文字、網紅互動數據、用戶行為等,在電商領域則多為商家禪宏信息和商品信息。
「內容平台一般約定了相關內容知識產權歸發布者或者發布者和平台共同所有,這些爬蟲沒有簽訂協議就獲得用戶授權,涉嫌對知識產權人權利的侵犯。」曾翔說。
或應明確網站權利
這就涉及到數據的權屬及是否能開放的問題。
上海市浦東區人民法院知識產權庭法官徐弘韜認為,數據是內容產業的核心競爭資源,內容平台經過匯總分析處理後的數據往往具有極高的經濟價值。
「如果要求內容平台經營者將其核心競爭資源向競爭對手無限開放,不僅有違『互聯互通』精神的實質,也不利於優質內容的不斷更迭和互聯網產業的持續發展。」徐弘韜說。
惡意爬蟲爬取數據案件頻發的背後,是數據的價值增加,以數據為核心的市場競爭愈發激烈。
華東政法大學教授高富平說,進入大數據時代,數據價值再次凸顯,現在的爬蟲技術已經從原來的網頁爬蟲進入到底層數據的爬取。數據爬蟲問題會變得越來越嚴重。
在大數據時代的背景下,愈來愈多的市場主體投入巨資收集、整理和挖掘信息,業內人士對此表示擔憂:如果任由網路爬蟲任意使用或利用他人通過巨大投入所獲取的數據資源,將不利於鼓勵商業投入、產業創新和誠實經營,甚至可能直接違背了數據來源用戶的意願和知情權,最終勢必損害 健康 的競爭機制。
高富平認為,如果網站合法積累數據資源,那麼這些數據資源就應該屬於網站的資產。「允許數據生產者、控制者基於商業目的開放數據是有好處的,通過許可使用、交換交易等方式,可以讓更多人享用數據服務。期待在未來確認數據所有合法生產者對數據的控制權、使用權。」
有序流轉同等重要
目前,網站雖然可以去指定相應策略或技術手段,防止爬蟲抓取數據,但爬蟲也有更多技術手段來反制這種反爬策略。
劉煜晨說,反爬和爬取的技術一直在迭代,在技術領域,沒有爬不了的網站和App,只有願不願意爬和多難爬的問題。
據了解,現實中惡意網路爬蟲製造者抗辯時,往往將robots協議限制爬取與數據流轉聯系起來。徐弘韜認為,在「互聯互通」的語境下,「有序」和「流轉」同等重要、缺一不可,需排除假借「互聯互通」妨礙公平競爭、危害用戶數據安全的行為。
「對於非搜索引擎爬蟲的正當性判別,要考慮是否足以保障用戶數據的安全性。包括身份數據、行為數據等在內的用戶數據,從屬性來講不僅僅是經營者的競爭資源,同樣具有用戶的個人隱私屬性,而此類數據的集合更涉及 社會 公共利益。」徐弘韜說。
據了解,近年來有關數據安全的法律規范正在不斷完善中。數據安全法作為數據安全的基本法,承載著解決我國數據安全核心制度框架的重要任務。此外,還有2019年通過的密碼法,工信部擬出台《工業和信息領域數據安全管理辦法(試行)》等,一些地方如深圳、上海等也在 探索 制定數據管理相關規范。
C. 網路爬蟲技術可以做什麼 有哪些用途和危害
網路爬蟲技術可以用於信息收集、數據挖掘和分析,具有多種用途,但同時也存在一些危害。
用途:1. 搜索引擎的核心技術:網路爬蟲能夠海量的抓取特定主題和內容的網路信息,作為搜索引擎向用戶搜索和查詢相關內容的儲備數據資源。2. 數據挖掘和分析:通過對抓取到的網頁數據進行分析和過濾,可以提取出有價值的信息,用於市場調研、商業智能等領域。3. 網路推廣:一些公司或操作者可以利用簡單的爬蟲技術,對自己的網站或產品進行推廣,提高曝光度和知名度。
危害:1. 侵犯用戶隱私:不受控制的爬蟲程序會記錄和分析用戶的網路行為,包括訪問的頁面、點擊的內容、購買的商品等,嚴重侵犯了用戶的隱私權。2. 消耗網路資源:大量的爬蟲程序同時運行會佔用大量的網路帶寬和伺服器資源,導致網路擁堵和服務質量下降。3. 安全風險:一些惡意爬蟲可能會利用漏洞攻擊網站,竊取敏感信息,給網路安全帶來威脅。4. 信息泄露:通過爬蟲技術收集到的數據,如果被不法分子利用,可能會導致個人信息泄露,進而引發一系列安全問題。
總結:網路爬蟲技術在信息收集、數據挖掘和分析等方面具有重要作用,但同時也存在侵犯用戶隱私、消耗網路資源、安全風險和信息泄露等危害。因此,在使用網路爬蟲技術時,需要遵守相關法律法規和道德規范,確保合法、合規、安全地使用。
D. 爬蟲技術是否合法
當爬蟲爬取數粗搏據的行為對目標網站造成嚴重影響,爬取行為具有社會危害性時,涉嫌犯罪。
【法律分析】
大數據時代,用戶信息等數據早已成為所有互聯網企業的核心競爭資源。在某種意義上,搶佔了數據就是搶佔了客戶,搶佔了市場。因此,近年來因爭奪數據而引發的糾紛越來越多;獲取數據的常見方式,除了向用戶收集、從第三方共享、受讓外,還有使用爬蟲爬取數據。由於「技術中立」的基本原則,爬蟲本身不為法律所禁止,可採集公開信息。「公開」指的是對大眾(所有人)公開,不具有傳播對象的特定性;如果爬取對象是對外提供公開查詢服務的網站的公開信息,不構成侵權或犯罪,可以抓取;沒有設置反爬聲明或採取反爬技術措施的各類商業網站,一般不限制爬取數據,但也並不意味著可以隨意抓取。
【法律依據】
《中華人民共和國刑法》 第二百盯虧八十六條 違反國家規定,對計算機信息系統功能進行刪除、修改、增加、干擾,造成計算機信息系統不能正常運行,後果嚴重的,處五年以下有期徒刑或者拘役;後果特別嚴重的,處五年以上有期徒刑。違反國家規定,對計算機信息系統中存儲、處理或者傳輸的數據和應用程序進行刪除、修改、增加的操作,後果嚴重的,依照前款的規定處罰。故意製作、傳播計算機病毒等破壞性程序,影響計算機系統正常運行,後果嚴重的,依照第一款的規定處罰。單位犯岩則祥前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照第一款的規定處罰。第二百八十六條之一網路服務提供者不履行法律、行政法規規定的信息網路安全管理義務,經監管部門責令採取改正措施而拒不改正,有下列情形之一的,處三年以下有期徒刑、拘役或者管制,並處或者單處罰金:(一)致使違法信息大量傳播的;(二)致使用戶信息泄露,造成嚴重後果的;(三)致使刑事案件證據滅失,情節嚴重的;(四)有其他嚴重情節的。單位犯前款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照前款的規定處罰。有前兩款行為,同時構成其他犯罪的,依照處罰較重的規定定罪處罰。