根據網路基礎設施供應商 Cloudflare 的研究,AI 新創公司 Perplexity 正在爬取並抓取那些明確表示不希望被爬取的網站內容。Cloudflare 於週一發表報告指出,觀察到 Perplexity 忽視了爬取阻擋機制,並隱藏其活動。Cloudflare 的研究人員指控 Perplexity 在試圖抓取網頁時,刻意隱匿其身份以規避網站偏好。AI 產品依賴大量網際網路資料運作,許多新創公司長期未經授權抓取文字、圖片和影片。近期網站嘗試使用網頁標準 Robots.txt 檔案來指示哪些頁面可被索引,但效果不一。Cloudflare 發現 Perplexity 透過更改機器人「使用者代理」及自主系統網路編號(ASN)來繞過這些阻擋,此行為被觀察到跨越數萬個網域及每日數百萬次請求。Cloudflare 利用機器學習與網路訊號成功識別了該爬蟲。Perplexity 發言人 Jesse Dwyer 將 Cloudflare 的報導稱為「行銷宣傳」,並聲稱截圖顯示無內容被存取,且被提及的機器人並非其所有。Cloudflare 表示,在收到客戶投訴後,確認 Perplexity 確實繞過阻擋。Cloudflare 已將 Perplexity 的機器人從驗證清單中除名,並新增技術加以阻擋。Cloudflare 近期公開反對 AI 爬蟲,上月推出市場讓網站主可向 AI 抓取者收費,執行長 Matthew Prince 指出 AI 破壞了網際網路商業模式。Cloudflare 去年也推出免費工具防止機器人抓取。Perplexity 並非首次被指未經授權爬取,去年有媒體如 Wired 指控其抄襲內容,當時 CEO Aravind Srinivas 在 Disrupt 2024 會議上接受 TechCrunch 記者 Devin Coldewey 採訪時,未能立即提供公司對抄襲的定義。
perplexity 被指控 Scraping 並未明確禁止 AI Scraping 的網站
分享這篇文章: