AI公司不斷開發(fā)新爬蟲繞過(guò)阻攔 網(wǎng)站運(yùn)營(yíng)跟不上
- 來(lái)源:404 Media
- 作者:3DM編譯
- 編輯:爆裂真菌
在網(wǎng)路建立的早期,大家有了一個(gè)不成文的協(xié)議,即一個(gè)名為“robot.txt”的文本文件——也就是攔截列表中將決定誰(shuí)能夠訪問(wèn)你的網(wǎng)站,這主要針對(duì)機(jī)器人/爬蟲。一般網(wǎng)站主要面向搜索引擎開放,以讓搜索引擎帶來(lái)流量。但這個(gè)不成文的約定正在被人工智能公司打破。
已經(jīng)有許多網(wǎng)站為了保護(hù)權(quán)益正在試圖阻止一家名為 Anthropic 的 AI 公司抓取網(wǎng)站內(nèi)的內(nèi)容。然而隨著該公司不斷開發(fā)新的爬蟲,來(lái)不及更新“robot.txt”文件的網(wǎng)站成了被盜用資源的受害者。
根據(jù) 404 Media 采訪跟蹤網(wǎng)絡(luò)爬蟲和抓取工具網(wǎng)站的 Dark Visitors 運(yùn)營(yíng)者,他在幫助其他網(wǎng)站運(yùn)營(yíng)者更新“robot.txt”期間發(fā)現(xiàn),現(xiàn)狀非常混亂。匿名運(yùn)營(yíng)著說(shuō)道:“代理生態(tài)系統(tǒng)瞬息萬(wàn)變,因此網(wǎng)站所有者基本不可能手動(dòng)跟上?!?
拿 Anthropic 距離,一些熱門網(wǎng)站例如路透社等在 robot.txt 中組織了“ANTHROPIC-AI”和“CLAUDE-WEB”兩個(gè)爬蟲,他們?cè)?Anthropic 的 Claude AI 聊天機(jī)器人使用,但目前該公司最活躍的爬蟲實(shí)際上是“CLAUDEBOT”,因此這些網(wǎng)站都不會(huì)阻攔該爬蟲。其他數(shù)百個(gè)復(fù)制粘貼攔截列表的網(wǎng)站也未能阻止該公司。
404 Media 采訪了許多網(wǎng)絡(luò)行業(yè)從業(yè)者,他們均表示面對(duì) AI 公司的這種行為,鼓勵(lì)網(wǎng)站積極屏蔽此類機(jī)器人/爬蟲。網(wǎng)絡(luò)安全公司 StackAware 首席執(zhí)行官 Walter Haydock 就表示支持在“robot.txt”中添加大量的可能屏蔽對(duì)象,并說(shuō)道:“如果它們最終不存在,那么阻止它們也不會(huì)產(chǎn)生任何影響?!?
他還表示該屏蔽列表說(shuō)到底也不過(guò)是互聯(lián)網(wǎng)的一個(gè)約定俗成,“阻止 AI 公司的代理依賴于 AI 公司尊重 robot.txt 文件,并且你還需要知道所有的 AI 抓取代理。對(duì)于大多數(shù)公司來(lái)說(shuō),這種情況的可能性很低,因此我預(yù)計(jì)更多的創(chuàng)作者會(huì)將他們的內(nèi)容轉(zhuǎn)移為付費(fèi)觀看,以防止無(wú)限制的抓取?!?


-
傳奇歲月
-
原始傳奇
-
斗羅大陸(我唐三認(rèn)可0.1折)
-
妖神記之巔峰對(duì)決
-
無(wú)雙戰(zhàn)車(悟空沉默)
-
深淵契約
-
貓狩紀(jì)0.1折
-
靈劍仙師(斗破蒼穹)
玩家點(diǎn)評(píng) (0人參與,0條評(píng)論)
熱門評(píng)論
全部評(píng)論