2023 年 8 月,以开发 ChatGPT 闻名的人工智能巨头 OpenAI 宣布推出 GPTBot,这是一款旨在遍历网络并收集数据的网络爬虫。
该消息发布后不久,互联网上一些最大的网站就阻止了该机器人访问其网站。 但为什么? OpenAI 的 GPTBot 是什么? 为什么大网站害怕它,为什么他们试图阻止它?
OpenAI 的 GPTBot 是什么?
GPTBot 是 OpenAI 创建的网络爬虫,用于搜索互联网并收集 OpenAI 人工智能发展目标的信息。 它被编程为抓取公共网站并将数据发送回 OpenAI 的服务器。 然后,OpenAI 使用这些数据来训练和改进其人工智能模型,目标是构建日益先进的人工智能系统。 要构建像 GPT-4 这样的复杂人工智能模型或其子产品(如 ChatGPT),网络爬虫几乎是必不可少的。
训练人工智能模型需要大量数据,收集这些数据的最有效方法之一是部署网络爬虫等工具。 爬虫可以系统地浏览网络,跟踪链接以索引大量网页,并提取与预定义模式匹配的文本、图像和元数据等关键数据。
然后可以将这些数据结构化并输入人工智能模型,以训练它们的自然语言处理能力或图像生成能力,或训练它们执行其他人工智能任务。 换句话说,网络爬虫收集的数据使 ChatGPT 或 DALL-E 等工具能够完成它们的工作。
网络爬虫并不是一个新概念。 如今,可能有数百万人在抓取互联网上数十亿个网站。 它们至少从 90 年代初就已经存在了。 GPTBot只是OpenAI拥有的此类爬虫之一。 那么,是什么引起了围绕这个特定网络爬虫的争议呢?
为什么网站要阻止 GPTBot?
据 Business Insider 报道,互联网上一些最大的网站正在积极阻止其网站上的 OpenAI 爬虫。 那么,如果 GPTBot 的最终目标是推动人工智能的发展,为什么互联网上一些最大的网站(其中一些网站以某种方式从人工智能中受益)反对它呢?
嗯,事情是这样的。 自 2022 年生成式人工智能技术复兴以来,关于人工智能公司是否有权几乎不受限制地使用来自互联网的数据(其中很大一部分受到版权的法律保护)的权利存在着许多争论。 没有明确的法律管辖这些公司如何收集和使用数据来谋取私利。
因此,基本上,像 GPTBot 这样的爬虫会抓取网络,以文本、图像或其他形式的媒体形式抓取人们的创意作品,并将其用于商业目的,而无需获得任何许可或向原始创作者提供补偿。
这就是网站需要部署“robots.txt”的原因,这是一种已有数十年历史的阻止网络爬虫的方法。 根据 OpenAI 的说法,GPTBot 将遵循基于 robots.txt 中嵌入规则的指令来爬行或避免爬行网站,robots.txt 是一个小文本文件,告诉网络爬虫如何在网站上行为。 如果您有自己的网站并且希望阻止 GPTBot 抓取您的数据,可以按照以下方法阻止 OpenAI 的爬虫抓取您的网站。
网站真的能阻止 GPTBot 吗?
虽然像 GPTBot 这样的爬虫对于收集训练高级人工智能系统所需的大量数据是必不可少的,但围绕版权和公平使用的合理担忧也不容忽视。
当然,有像 robots.txt 这样的简单工具可以用来防范这种情况,但 GPTBot 是否遵守该文件上的说明完全由 OpenAI 自行决定。 无法保证他们会这样做,也没有立即万无一失的方法来判断他们是否已经这样做了。 在阻止 GPTBot 接触受版权保护的数据的斗争中,OpenAI 占据了王牌,至少目前如此。