(译)聊聊 robots.txt 与 AI

同样是网络爬虫,为什么谷歌搜索引擎的爬虫通常会网站欢迎,而 OpenAI 的爬虫则不那么受欢迎?搜索引擎和网站之间是如何形成一个平衡和互利的关系的,AI 与网站之间能否形成类似的互利关系呢?

本文翻译自 With the rise of AI, web crawlers are suddenly controversial - The Verge

不完美的 robots.txt

几十年来,robots.txt 文件一直是规范网络爬虫行为的重要工具。然而,随着一些不良的人工智能公司不断收集更多数据,互联网的基础契约正在受到威胁。
三十多年前,一个小小的 robots.txt 文本文件使互联网摆脱了混乱状态。这个文本文件并没有依赖于特定的法律或技术权威,文件本身也不复杂。它代表了互联网初期一些先驱之间的君子协定,彼此尊重他人意愿,共同建立对每个人都有益的互联网环境。robots.txt 可以被视为互联网的一部以代码书写的“小宪法”。
robots.txt 文本通常位于 yourwebsite.com/robots.txt ,它允许任何网站的运营者——无论是小型烹饪博客还是跨国公司——告知谁可以访问这个网站,谁不可以访问。你可以决定哪些搜索引擎能够索引你的网站,哪些网站存档项目可以抓取你的页面并保存快照,以及竞争对手能否监视你的页面用于他们自己的用途。总之,你来制定这些规则并通过 robots.txt 向整个互联网宣布。
robots.txt 文件并不是一个完美的系统,但以往一直运行良好,或者说至少曾经如此。在过去几十年里,robots.txt 的主要是针对搜索引擎。你允许它们抓取你的站点,作为交换,它们为你带来流量。但如今,人工智能改变了这一平衡:互联网公司开始利用你的网站及其数据来构建庞大的训练数据集,用于开发可能完全忽略你存在的模型和产品。
robots.txt 的本质体现了一种互惠互利的制度。但对许多人来说,人工智能似乎只是在“单向索取”。人工智能领域的巨大商业利益和技术的快速进步,使许多站点难以应对。robots.txt 和整个互联网背后的基本协议——即“大家都保持冷静”——可能也无法跟上这个步伐。

为何需要 robots.txt

在互联网早期,网络爬虫有许多名字:spiders、crawlers、worms、WebAnts、web crawlers。大多数情况下,它们都是出于善意而被构建的。通常是开发人员试图建立一个网站目录,确保自己的网站正常运行,或建立一个研究用的数据库——这些都是在1993年左右发生的事情,那时我们可以将互联网的大部分内容存储在自己的电脑硬盘上。
当时唯一真正的问题是流量:访问互联网既慢又昂贵,不论是对于浏览网站的人还是托管网站的人。如果您将网站托管在自己的电脑上(那时许多人都这样做),或者通过家庭互联网连接运行一个临时的服务器软件,只需要几个过于热心的爬虫程序频繁下载您的页面,就会导致一切陷入混乱,电话账单大幅增加。
1994 年的几个月里,软件工程师和开发人员 Martijn Koster 与一组网络管理员和开发人员提出了一个解决方案,名为网络爬虫排除协议(Robots Exclusion Protocol)。这个提议非常简单直接:要求网络开发人员在他们的域名下添加一个纯文本文件,指定不允许抓取哪些网络爬虫他们的网站,或列出所有禁止网络爬虫访问的页面。对于网络爬虫开发者而言,这一协议更为简单明了:尊重文本文件中的意愿。
Koster 一开始就明确表示,他并不反感网络爬虫,也没有打算淘汰它们。 “机器人是网络中引起操作问题和麻烦的几个方面之一”,他在1994年初向一个名为 WWW-Talk 的邮件列表发的第一封电子邮件中说。“与此同时,它们也提供了有用的服务。”
Koster 警告不要争论网络爬虫是好还是坏 — 因为这不重要,它们已经存在且不会消失。他只是试图设计一个系统,可能“在最大程度上减少问题的同时充分利用其优势。” 到了当年夏天,他的提案已经成为某种标准 — 虽然不是官方标准,但基本上被广泛认可。
“简而言之,这是一种通过在服务器上提供一个简单的文本文件,引导网络爬虫按约定来爬取”,他写道。“如果你有大型档案、带有大量 URL 子树的 CGI 脚本、临时信息,或者你根本不想供网络爬虫访问,这种方法尤其方便。”
Koster 创建了一个专门的邮件列表,其中成员对这些文本文件的基本语法和结构达成了一致意见,并将文件名从 RobotsNotWanted.txt 改为简单的 robots.txt,几乎所有人都同意支持这一变化。
在接下来约30年的时间里,这一方法取得了相当不错的效果。
然而,随着互联网已经无法单纯地被存储在一个硬盘里,并且网络爬虫变得更加强大。Google 利用网络爬虫抓取和索引整个网络以供其搜索引擎使用,这已经成为互联网的门户,并为该公司带来了数十亿美元的收入。Bing 的爬虫也执行相同的任务,微软还将其数据库授权给其他搜索引擎和公司。Internet Archive 利用爬虫存储网页以备将来查阅。亚马逊的爬虫在网络上搜集产品信息,最近一项反垄断诉讼披露该公司利用这些数据来惩罚在亚马逊之外提供更优惠报价的卖家。像 OpenAI 这样的 AI 公司正在抓取网络内容,用于训练大型语言模型,这可能再次从根本上改变我们获取和分享信息的方式。
现代互联网下载、存储、组织和查询的能力为任何公司或开发者提供了类似于累积知识的资源。在过去一年左右的时间里,由 ChatGPT 等 AI 产品推动的大型语言模型的兴起,使高质量的训练数据成为互联网最有价值的商品之一。这促使各种互联网服务提供商重新评估其服务器上数据的价值,并重新思考谁可以访问这些数据。太过宽容可能会使你的网站失去所有价值,而过于限制可能会使你的网站在无足轻重。此外,你必须不断在新公司、新合作伙伴和新利益相关方中做出选择。

爬虫与网站间的平衡

网络爬虫有几种类型。你可以构建一个完全无害的爬虫在各处爬行,以确保你的所有页面链接仍然有效;你也可以派出一个更为可疑的爬虫在网络上搜刮所有可找到的电子邮件地址或电话号码。但目前最常见也是面临最大争议的是一种简单的网络爬虫。它的任务是查找并下载互联网上尽可能多的内容。
网络爬虫通常相当简单。它们从著名网站开始,比如 cnn.com、wikipedia.org 或 health.gov。如果你是运行通用搜索引擎,你将从各种高质量领域开始;如果你只关心体育或汽车,你将直接从汽车网站开始。网络爬虫下载第一个页面并存储在某处,然后自动点击页面上的每个链接,下载所有内容,点击每个链接上的所有链接,以此方式在网络中传播。如果给予足够的时间和计算资源,一个网络爬虫最终将找到并下载数十亿网页。
这种交易是相当直接的:如果 Google 能够爬取您的页面,它就能够将其编入索引并显示在搜索结果中。
2019 年,谷歌估计有超过 5 亿个网站使用 robots.txt 规定网络爬虫是否允许访问以及允许访问哪些内容。这些文件通常具有相似的结构:命名一个“User-agent”,用于标识网络爬虫的名称,如谷歌的 Googlebot、亚马逊的 Amazonbot、必应的 Bingbot、OpenAI 的 GPTBot 等等。许多其他网站如 Pinterest、LinkedIn、Twitter 等都有自己的网络爬虫。每个 robots.txt 上不一定包含所有网络爬虫名称。robots.txt 文件列出了特定爬虫不被允许访问的页面,以及允许的页面。如果有这个文件中有一行内容为“Disallow: /”,则表示不欢迎任何网络爬虫。
长久以来,网站所有者需要回答的主要问题之一是是否允许 Googlebot 爬取他们的网站。如果 Googlebot 可以抓取你的网站页面,它将可以对其进行索引并在搜索结果中显示。任何你希望在谷歌搜索结果中能被检索到的页面,都需要让 Googlebot 看到。你要权衡的是,是否愿意让 Google 使用你的网站上的部分资源,以换取更广泛的网络可见度。
对许多网站所有者来说,这是一个简单的交易。媒体 CEO Tony Stubblebine称:“谷歌是我们最重要的爬虫”。谷歌可以爬取 Medium 上的所有页面,“作为回报,我们从谷歌获得了大量流量。这是双赢。每个人都认同这一点”。这是谷歌与整个互联网达成的默契,引导流量到其他网站并在搜索结果中显示广告。根称谷歌一直是 robots.txt 的良好使用者。“几乎所有知名搜索引擎都遵循这一规定”。

AI 爬虫带来的挑战

然而,在过去一年左右,人工智能的崛起打破了这种平衡。对许多出版商和平台来说,他们的数据被用作训练数据,感觉更像是被窃取而非交换价值。“我们很快发现,与AI公司合作,” Stubblebine说,“交换的价值消失了,我们得不到任何回报。简直是一无所获。” 当 Stubblebine 在去年秋天宣布 Medium 将封锁 AI 爬虫时,他写道:“AI 公司从作者那里掠夺价值,以向互联网用户发送垃圾内容。”
在过去一年中,媒体行业的很大一部分对 Stubblebine 的言论做出了响应。BBC 国际部总监 Rhodri Talfan Davies 在去年秋天表示:“我们认为未经我们允许使用 BBC 数据进行‘抓取’来训练人工智能模型并不符合公众利益。”他宣布 BBC 也将阻止 OpenAI 的爬虫。纽约时报最近对 OpenAI 提起诉讼并封锁了 GPTBot,声称 OpenAI 的模型是通过复制数百万篇受版权保护的纽约时报新闻报道和其他内容构建的。路透社新闻应用编辑 Ben Welsh 的一项研究显示,在 1156 家出版商中,有 606 家在其robots.txt 文件中屏蔽了 GPTBot。
这个问题不仅限于出版商。亚马逊、Facebook、Pinterest、WikiHow、WebMD 等许多平台都明确地阻止了 GPTBot 访问它们的网站部分或全部内容。在这些 robots.txt 页面上,OpenAI 的 GPTBot是唯一被明确且全面禁止的爬虫。然而,还有许多面向人工智能的爬虫开始抓取网站,如 Anthropic的 anthropic-ai 和谷歌的新型 Google-Extended。根据去年秋天 Originality.AI 的研究,排名前1000的网站中有306个屏蔽了GPTBot,但只有85个屏蔽了 Google-Extended,28个屏蔽了 anthropic-ai。
一些爬虫同时用于网络搜索和人工智能。例如,CCBot 由 Common Crawl 组织运营,用于搜索互联网以满足搜索引擎的需求,但其数据也被 OpenAI、谷歌等公司用于训练模型。微软的 Bingbo t既是搜索爬虫又是 AI 爬虫。这只是可以辨认的爬虫例子——还有许多其他爬虫试图在相对隐秘的情况下运行,这使得难以阻止或发现它们在其他网络流量中的存在。对于任何受欢迎的网站来说,寻找这样的狡猾爬虫就像大海中找针一样困难。
GPTBot 在很大程度上已成为 robots.txt 的头号挑战,因为 OpenAI 允许这种情况发生。OpenAI 的爬虫身份可以被明确识别,并且该公司发布了一份指南用于指导网站如何阻止 GPTBot 爬虫。然而,OpenAI 首席战略官詹森·权强调是否允许 GPTBot 对网站很关键。“我们是生态系统的一部分,”他说。“如果您希望以开放的方式参与这一生态系统,那么这是每个人都感兴趣的互惠交易。”他指出,没有这种交易,网络将会缩小、封闭,这对 OpenAI 和所有人都是不利的。“我们做一切都是为了保持网络的开放性。”
默认情况下,Robots Exclusion协议(robots.txt 协议)一直是许可性的。这一协议的核心假设是大多数爬虫都是有益的,由善意的人制造,因此默认允许它们进行访问。总体而言,这一决定是正确的。OpenAI 的首席战略官詹森·权认为,“互联网本质上是一种社会产物,这种持续了数十年的合作关系似乎运作良好。”他提到,OpenAI 致力于维护这项协议,包括免费提供 ChatGPT 以回馈用户价值,并严格遵守 robots.txt 规则。
然而,robots.txt 并不是一个法律文件。尽管它在过去 30 年里依赖于各方的善意,但它并没有法律效力。在你的 robots.txt 页面上禁止一个爬虫,就像在树屋上竖起一个“禁止女孩进入”的标志——它传达了一个信息,但在法律上无效。任何想要忽略 robots.txt 的爬虫可以轻易地这样做,几乎无需担心后果。例如,互联网档案馆在2017年宣布不再遵守 robots.txt 的规定。互联网档案馆 Wayback Machine 的主管 Mark Graham 当时写道:“我们发现,为搜索引擎爬虫设计的 robots.txt 文件并不一定适用于我们的存档目的。”这一决定立即生效。
随着人工智能公司的不断增多,它们的爬虫变得越来越不择手段,任何想要退出或等待 AI 接管的人都必须进行无休止的打地鼠游戏。如果这甚至可能的话,他们必须逐一阻止每个机器人和爬虫,同时还要考虑到其副作用。如果人工智能确实是搜索的未来,正如谷歌和其他公司所预测的那样,屏蔽 AI 爬虫可能是短期的胜利,但长期来看却是灾难。
双方都有一些人认为我们需要更好、更强大、更严格的工具来管理爬虫。他们认为,涉及的钱太多了,新出现的且未经监管的用例也太多了,以至于不能仅仅依靠大家都同意做正确的事情。“虽然许多参与者有一些自我管理爬虫使用的规则,”两位专注于技术的律师在2019年一篇关于网络爬虫合法性的论文中写道,“但总体规则过于薄弱,且难以追究它们的责任。”
一些出版商希望对其内容的爬取及使用有更详细的控制,而不是依赖于 robots.txt 协议的一刀切方式。几年前,谷歌试图将 Robots Exclusion Protocol 正式化,同时也主张弱化该协议,理由是这一旧标准已被许多网站忽视。谷歌副总裁 Danielle Romain 去年写道:“现有的网络发布者控制手段是在新的人工智能和研究应用出现之前开发的。我们认为是时候让网络和人工智能社区探索其他机器可读方式,以便网络发布者能够为新兴的人工智能和研究用例进行选择和控制。”
尽管人工智能公司在构建和训练模型时面临着监管和法律问题,这些模型仍在不断改进,几乎每天都有新公司成立。大大小小的网站都面临一个决定:是接纳人工智能革命还是坚决抵制它。对于那些选择不参与的人来说,最强大的武器依然是三十年前由一些互联网早期信徒达成的协议。这些人相信互联网是一个充满善意的地方,并希望互联网成为一件有益的事物。在那个时代,用一个简单的文本文件描述你的愿望就足以管理内容的使用。然而,如今,随着人工智能再次有望重塑互联网的文化和经济,这个不起眼的纯文本文件显得有些陈旧。

为了应对这些挑战,我们需要探索新的方法来管理内容的访问和使用。在这个过程中,既需要技术的创新,也需要对合作精神的重新定义。新的机制和协议应促进透明性和互惠性,以确保各方利益和互联网的长期健康发展。