OpenAI 推出网络爬虫 GPTBot,但用户可以选择禁止被爬

36Kr
2023.08.08 08:39
portai
I'm PortAI, I can summarize articles.

作者 | 虞景霖编辑 | 邓咏仪 AI 模型的升级依靠海量的公开数据,而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。8 月 8 日,OpenAI 推出了一款名为 GPTBot 的网络爬虫机器人,用于收集训练 AI 模型所需的数据信息。传闻 OpenAI 将利用这些数据升级 GPT-4 和其他大语言模型(如可能即将推出的 GPT-5 和开源的 G3PO)。根据 OpenAI 介绍,GPTBot 和其他所有网络爬虫一样,从互联网上搜集能够用于训练 AI 模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外,网站所有者还可以选择限制或者禁止 GPTBot 爬取网页数据。如何识别 GPTBot?来源:OpenAI 如何禁止 GPTBot 访问?将 GPTBot 添加到网站的 robots.txt:来源:OpenAI 如何限制 GPTBot 访问,使其只爬取网站的一部分数据?将下列命令添加至网站的 robots.txt:来源:OpenAI 此外,根据 OpenAI 发布的有关 GPTBot 的文档,还列出了 GPTBot 使用的 IP 范围(目前只列出了一个,之后将继续添加)。

作者 | 虞景霖

编辑 | 邓咏仪

AI 模型的升级依靠海量的公开数据,而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。

8 月 8 日,OpenAI 推出了一款名为 GPTBot 的网络爬虫机器人,用于收集训练 AI 模型所需的数据信息。传闻 OpenAI 将利用这些数据升级 GPT-4 和其他大语言模型(如可能即将推出的 GPT-5 和开源的 G3PO)。

根据 OpenAI 介绍,GPTBot 和其他所有网络爬虫一样,从互联网上搜集能够用于训练 AI 模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外,网站所有者还可以选择限制或者禁止 GPTBot 爬取网页数据。

如何识别 GPTBot?

来源:OpenAI

如何禁止 GPTBot 访问?

将 GPTBot 添加到网站的 robots.txt:

来源:OpenAI

如何限制 GPTBot 访问,使其只爬取网站的一部分数据?

将下列命令添加至网站的 robots.txt:

来源:OpenAI

此外,根据 OpenAI 发布的有关 GPTBot 的文档,还列出了GPTBot 使用的 IP 范围(目前只列出了一个,之后将继续添加)。

来源:OpenAI

数据的爬取是 AI 模型训练不可或缺的一环,而由此所带来的伦理和法律和法律问题也一直是公众关注的焦点。不少国家和地区出台了相应法案,Reddit 和 X(前 Twitter)等网站也采取了相应措施打击 AI 公司爬取用户数据的行为。

喜剧演员兼作家 Sarah Silverman 曾在美国法院起诉 OpenAI 的侵权行为,原因是 ChatGPT 会总结她的书籍,这一行为构成了侵权。

GPTBot 是对围绕版权、公开信息合理使用的一次尝试,使数据收集尽可能在监管范围之内。

尽管网络爬虫网站信息引发了部分网站所有者、版权所有者的反对,但也有支持的声音。

网站信息和 ChatGPT 等大语言模型可以是相辅相成、互相促进的,但并不绝对。网络爬虫在获取网站信息的时候能够改善网站的流量,网页数据信息能够帮助大语言模型生成更加可靠完善的回答。但网络爬虫所爬取的数据并不一定是信息的源链接,因此无法为网站带去流量。

尽管如此,正如 Perplexity 和其他大语言模型展示的那样,生成式人工智能机器人的回答还可能包括链接和引用,在未来也有可能成为 ChatGPT 的特性之一。因此,网站内容发布者也可能希望网站信息被用于 AI 模型,以换取可能的流量。