OpenAI 推出網絡爬蟲 GPTBot，但用户可以選擇禁止被爬

作者 | 虞景霖編輯 | 鄧詠儀 AI 模型的升級依靠海量的公開數據，而科技公司大多通過網絡爬蟲來獲取用户數據。但這個過程並不一定被用户、網站所有者所允許。8 月 8 日，OpenAI 推出了一款名為 GPTBot 的網絡爬蟲機器人，用於收集訓練 AI 模型所需的數據信息。傳聞 OpenAI 將利用這些數據升級 GPT-4 和其他大語言模型（如可能即將推出的 GPT-5 和開源的 G3PO）。根據 OpenAI 介紹，GPTBot 和其他所有網絡爬蟲一樣，從互聯網上搜集能夠用於訓練 AI 模型的有用數據。但它並不會收集需要付費的、或者違反隱私政策的數據。此外，網站所有者還可以選擇限制或者禁止 GPTBot 爬取網頁數據。如何識別 GPTBot？來源：OpenAI 如何禁止 GPTBot 訪問？將 GPTBot 添加到網站的 robots.txt:來源：OpenAI 如何限制 GPTBot 訪問，使其只爬取網站的一部分數據？將下列命令添加至網站的 robots.txt:來源：OpenAI 此外，根據 OpenAI 發佈的有關 GPTBot 的文檔，還列出了 GPTBot 使用的 IP 範圍（目前只列出了一個，之後將繼續添加）。

作者 | 虞景霖

編輯 | 鄧詠儀

AI 模型的升級依靠海量的公開數據，而科技公司大多通過網絡爬蟲來獲取用户數據。但這個過程並不一定被用户、網站所有者所允許。

8 月 8 日，OpenAI 推出了一款名為 GPTBot 的網絡爬蟲機器人，用於收集訓練 AI 模型所需的數據信息。傳聞 OpenAI 將利用這些數據升級 GPT-4 和其他大語言模型（如可能即將推出的 GPT-5 和開源的 G3PO）。

根據 OpenAI 介紹，GPTBot 和其他所有網絡爬蟲一樣，從互聯網上搜集能夠用於訓練 AI 模型的有用數據。但它並不會收集需要付費的、或者違反隱私政策的數據。此外，網站所有者還可以選擇限制或者禁止 GPTBot 爬取網頁數據。

如何識別 GPTBot？

來源：OpenAI

如何禁止 GPTBot 訪問？

將 GPTBot 添加到網站的 robots.txt:

來源：OpenAI

如何限制 GPTBot 訪問，使其只爬取網站的一部分數據？

將下列命令添加至網站的 robots.txt:

來源：OpenAI

此外，根據 OpenAI 發佈的有關 GPTBot 的文檔，還列出了GPTBot 使用的 IP 範圍（目前只列出了一個，之後將繼續添加）。

來源：OpenAI

數據的爬取是 AI 模型訓練不可或缺的一環，而由此所帶來的倫理和法律和法律問題也一直是公眾關注的焦點。不少國家和地區出台了相應法案，Reddit 和 X（前 Twitter）等網站也採取了相應措施打擊 AI 公司爬取用户數據的行為。

喜劇演員兼作家 Sarah Silverman 曾在美國法院起訴 OpenAI 的侵權行為，原因是 ChatGPT 會總結她的書籍，這一行為構成了侵權。

GPTBot 是對圍繞版權、公開信息合理使用的一次嘗試，使數據收集儘可能在監管範圍之內。

網站信息和 ChatGPT 等大語言模型可以是相輔相成、互相促進的，但並不絕對。網絡爬蟲在獲取網站信息的時候能夠改善網站的流量，網頁數據信息能夠幫助大語言模型生成更加可靠完善的回答。但網絡爬蟲所爬取的數據並不一定是信息的源鏈接，因此無法為網站帶去流量。

儘管如此，正如 Perplexity 和其他大語言模型展示的那樣，生成式人工智能機器人的回答還可能包括鏈接和引用，在未來也有可能成為 ChatGPT 的特性之一。因此，網站內容發佈者也可能希望網站信息被用於 AI 模型，以換取可能的流量。