過河拆橋?為防“爬蟲”爬取數據訓練AI,百度百科屏蔽了谷歌等友商
拖把 / 2024-08-22 13:4679160近日有報道稱,為了防止未經允許的“爬蟲”爬取數據用于訓練AI,百度百科已經屏蔽了谷歌、必應等大多數搜索引擎。百度啊百度,你也學會過河拆橋了?

有網友扒出了百度百科的robots.txt文件,發現允許放行的白名單中,只有百度搜索、搜狗搜索、中國搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)幾個搜索引擎,而谷歌、必應、微軟MSN、UC的Yisouspider以及其他搜索引擎的爬蟲已被列入了禁止名單。

眾所周知,搜索引擎的工作原理,就是依靠“爬蟲”到不同的網站上爬取數據,然后展示在自己的搜索結果中。
百度曾經能搜到很多內容,但百度的“爬蟲”過于高頻地訪問網站爬取數據,會對網站的服務器產生巨大壓力,影響到了正常運轉,會主動選擇禁止百度爬取數據。此外,一些網站為了占據用戶心智、避免影響廣告收入等原因,也會主動選擇屏蔽百度的爬蟲,這就導致百度越來越難搜到想要東西了。

近幾年,AI大模型的快速發展,需要不少用戶真實數據進行支撐,而包含百度用戶自發編輯的百科內容,絕對是一個不小的數據訓練寶庫,“人均碩博學歷、頻繁剛下飛機”的知乎也是同理。但據爆料,知乎已經先百度一步禁止了其他搜索引擎的爬蟲,把白名單中的谷歌和必應踢掉,只留下了百度和搜狗。
曾經,百度起家靠的就是爬遍全網的“爬蟲”們,把自己爬到了“國服第一”的位置。但現在,想在文心一言上發力的百度卻反手禁了其他友商的爬蟲,把車門給焊死了,誰都別想上來。
對此,我們也只能感嘆到,互聯網越來越不互聯了。
點個贊1753
過河拆橋?為防“爬蟲”爬取數據訓練AI,百度百科屏蔽了谷歌等友商














滬公網安備 31010702005758號
發表評論注冊|登錄