
OpenAI 推出網絡爬蟲 GPTBot,但用户可以選擇禁止被爬

作者 | 虞景霖編輯 | 鄧詠儀 AI 模型的升級依靠海量的公開數據,而科技公司大多通過網絡爬蟲來獲取用户數據。但這個過程並不一定被用户、網站所有者所允許。8 月 8 日,OpenAI 推出了一款名為 GPTBot 的網絡爬蟲機器人,用於收集訓練 AI 模型所需的數據信息。傳聞 OpenAI 將利用這些數據升級 GPT-4 和其他大語言模型(如可能即將推出的 GPT-5 和開源的 G3PO)。根據 OpenAI 介紹,GPTBot 和其他所有網絡爬蟲一樣,從互聯網上搜集能夠用於訓練 AI 模型的有用數據。但它並不會收集需要付費的、或者違反隱私政策的數據。此外,網站所有者還可以選擇限制或者禁止 GPTBot 爬取網頁數據。如何識別 GPTBot?來源:OpenAI 如何禁止 GPTBot 訪問?將 GPTBot 添加到網站的 robots.txt:來源:OpenAI 如何限制 GPTBot 訪問,使其只爬取網站的一部分數據?將下列命令添加至網站的 robots.txt:來源:OpenAI 此外,根據 OpenAI 發佈的有關 GPTBot 的文檔,還列出了 GPTBot 使用的 IP 範圍(目前只列出了一個,之後將繼續添加)。
作者 | 虞景霖
編輯 | 鄧詠儀
AI 模型的升級依靠海量的公開數據,而科技公司大多通過網絡爬蟲來獲取用户數據。但這個過程並不一定被用户、網站所有者所允許。
8 月 8 日,OpenAI 推出了一款名為 GPTBot 的網絡爬蟲機器人,用於收集訓練 AI 模型所需的數據信息。傳聞 OpenAI 將利用這些數據升級 GPT-4 和其他大語言模型(如可能即將推出的 GPT-5 和開源的 G3PO)。
根據 OpenAI 介紹,GPTBot 和其他所有網絡爬蟲一樣,從互聯網上搜集能夠用於訓練 AI 模型的有用數據。但它並不會收集需要付費的、或者違反隱私政策的數據。此外,網站所有者還可以選擇限制或者禁止 GPTBot 爬取網頁數據。
如何識別 GPTBot?
來源:OpenAI
如何禁止 GPTBot 訪問?
將 GPTBot 添加到網站的 robots.txt:
來源:OpenAI
如何限制 GPTBot 訪問,使其只爬取網站的一部分數據?
將下列命令添加至網站的 robots.txt:
來源:OpenAI
此外,根據 OpenAI 發佈的有關 GPTBot 的文檔,還列出了GPTBot 使用的 IP 範圍(目前只列出了一個,之後將繼續添加)。
來源:OpenAI
數據的爬取是 AI 模型訓練不可或缺的一環,而由此所帶來的倫理和法律和法律問題也一直是公眾關注的焦點。不少國家和地區出台了相應法案,Reddit 和 X(前 Twitter)等網站也採取了相應措施打擊 AI 公司爬取用户數據的行為。
喜劇演員兼作家 Sarah Silverman 曾在美國法院起訴 OpenAI 的侵權行為,原因是 ChatGPT 會總結她的書籍,這一行為構成了侵權。
GPTBot 是對圍繞版權、公開信息合理使用的一次嘗試,使數據收集儘可能在監管範圍之內。
儘管網絡爬蟲網站信息引發了部分網站所有者、版權所有者的反對,但也有支持的聲音。
網站信息和 ChatGPT 等大語言模型可以是相輔相成、互相促進的,但並不絕對。網絡爬蟲在獲取網站信息的時候能夠改善網站的流量,網頁數據信息能夠幫助大語言模型生成更加可靠完善的回答。但網絡爬蟲所爬取的數據並不一定是信息的源鏈接,因此無法為網站帶去流量。
儘管如此,正如 Perplexity 和其他大語言模型展示的那樣,生成式人工智能機器人的回答還可能包括鏈接和引用,在未來也有可能成為 ChatGPT 的特性之一。因此,網站內容發佈者也可能希望網站信息被用於 AI 模型,以換取可能的流量。
