

谷歌现在把方便的人工智能答案放在搜索结果的顶部,这对用户本来会访问的网站来说代价高昂。但许多网站所有者表示,他们无法阻止谷歌的人工智能对其内容进行总结。
根据出版商的说法,这是因为谷歌筛选网页内容以得出人工智能答案的工具与跟踪网页以获得搜索结果的工具是一样的。像一些网站屏蔽谷歌的一些人工智能竞争对手一样,屏蔽Alphabet Inc .旗下的谷歌,也会妨碍网站在网上被发现的能力。
谷歌(Google)在搜索领域的主导地位——上周美国一家联邦法院裁定其为非法垄断——使其在酝酿中的人工智能战争中具有决定性优势。搜索初创企业和出版商表示,随着该行业初具规模,这场战争是不公平的。对于出版商来说,这种困境尤其严重,它们面临着一个选择:要么提供内容供人工智能模型使用(这可能会使它们的网站过时),要么从谷歌搜索(谷歌搜索是流量的主要来源)中消失。
“对这些公司来说,这就像是一场生存危机,”新闻网站Talking Points Memo的出版人乔·拉加佐(Joe Ragazzo)说。“这是两个糟糕的选择。你要么退学,马上就会死掉,要么和他们合伙,可能会慢慢死去,因为最终他们也不再需要你了。”
谷歌表示,人工智能概览——显示在谷歌搜索结果顶部的摘要——是其长期承诺的一部分,旨在提供更高质量的信息,并为出版商和其他企业提供更多机会。谷歌发言人在一份声明中表示:“每天,谷歌都会向网络上的网站发送数十亿次点击,我们打算继续与网站进行这种长期建立的价值交换。”“有了人工智能概览,人们发现搜索更有帮助,他们会更多地回来搜索,为发现内容创造新的机会。”
自成立之初,谷歌就部署了一款名为Googlebot的软件,用于访问或“抓取”数百万个网站,建立了一个详细的全球互联网存储库。这个指数对那些多年来一直寻求建立搜索引擎竞争对手的公司构成了一个令人生畏的进入壁垒,即使是像微软公司这样财力雄厚的公司。
生成式人工智能的兴起引发了一波新的初创公司,它们寻求提供搜索产品,让人工智能模型为用户的问题提供简洁的答案。聊天机器人的流行引发了谷歌内部对其搜索引擎未来的恐慌,长期以来,谷歌搜索引擎似乎是不可战胜的。但在这些初创公司真正威胁到这家搜索巨头的业务之前,它们必须在网络上爬行。这不是一件容易的事。
被爬虫抓取需要网站所有者花费金钱、计算能力和存储空间,因此许多发布商都包含一个文件,为爬虫访问他们的网站制定规则。被给予最大回旋余地的公司通常是谷歌(Google)和微软(Microsoft)的必应(Bing),它们可以通过自己的搜索引擎为网站带来流量。
人工智能初创公司Tako Inc.的首席执行官亚历克斯·罗森伯格(Alex Rosenberg)说,搜索引擎初创公司在获得吸引力之前不能保证这样的流量,这也是这些年轻公司开始与出版商达成协议,向出版商支付内容授权的原因之一。
罗森伯格说:“现在有很多科技公司为内容付费,他们为访问内容付费,因为他们需要这些内容才能在任何一种严肃的方式中竞争。”“而对谷歌来说,他们真的不需要这么做。”
在媒体公司和人工智能初创公司之间的一波交易中,谷歌一直是一个引人注目的抵制者。据两名知情人士透露,除了据称与Reddit Inc.达成的6,000万美元交易外,谷歌已私下向出版商发出信号,表示没有兴趣谈判。由于信息保密,这两名知情人士要求不具名。
媒体公司在这些对话中几乎没有什么影响力。今年早些时候,谷歌推出了人工智能概述(AI Overviews),该公司利用人工智能在搜索页面的顶部为用户的一些问题提供简洁的答案。出版商立即担心这些答案可能对他们的流量产生影响,但没有明确的方法来解决这些担忧。
谷歌在一些人工智能产品上使用了单独的爬虫,比如它的聊天机器人Gemini。但它的主要爬虫谷歌机器人(Googlebot)同时提供人工智能概览和谷歌搜索服务。公司发言人表示,谷歌机器人管理人工智能概览,因为人工智能和公司的搜索引擎紧密相连。这位发言人补充说,谷歌的搜索结果页面以多种格式显示信息,包括图像和图形。谷歌还表示,出版商可以阻止特定页面或部分页面出现在搜索结果的人工智能概述中,但这也可能会阻止这些片段出现在谷歌的所有其他搜索功能中,包括网络链接列表。
许多出版商通常至少有一半的流量依赖于搜索引擎,他们不愿意冒险将自己的影响力降到最低。
Raptive的创新主管马克?麦科勒姆(Marc McCollum)表示,谷歌的立场“低估了这给内容创作者带来的重大风险,尤其是那些依靠搜索可见性谋生的人。”Raptive代表出版商和网红。“如果选择退出,创作者可能会在不经意间减少他们在搜索引擎上的整体存在感,这可能会损害他们接触观众和创造收入的能力。”
发布免费消费电子产品在线维修指南的网站iFixit的首席执行官凯尔·维恩斯(Kyle Wiens)表示,与其他人工智能公司相比,该网站与谷歌的关系“脆弱得多”。Wiens在一封电子邮件中写道:“我可以阻止ClaudeBot为我们索引,而不会损害我们的业务。”他指的是生成式人工智能初创公司Anthropic的机器人。“但如果我屏蔽了Googlebot,我们就会失去流量和客户。”
谷歌与Reddit的交易为该公司提供了人工智能模型的宝贵信息。Reddit上有数百万用户就小众话题展开激烈辩论。与此同时,谷歌在搜索结果中增加了Reddit等论坛的搜索结果,为这家社交媒体网站带来了巨大的流量增长。Reddit的一位发言人表示,产品质量和速度的提高也促进了流量的增长。
据知情人士透露,搜索初创公司Perplexity正与Reddit就内容授权进行谈判,但与谷歌达成的协议设定了一个初创公司难以企及的价格。谷歌表示,与Reddit达成的协议是一项意义深远的合作,涵盖的不仅仅是培训数据。Reddit发言人拒绝就商业讨论置评。Perplexity拒绝置评。
其他搜索初创公司得出的结论是,这些数据根本遥不可及。
搜索初创公司Kagi的创始人弗拉基米尔·普雷洛瓦茨(Vladimir Prelovac)说:“我们需要20年的收入来支付Reddit的费用。”“我甚至不考虑这种可能性。”
小型创业公司并不孤单。OpenAI最近推出了SearchGPT,这是其广受欢迎的搜索聊天机器人的测试版本。然而,公开文件显示,包括亚马逊(Amazon)、Goodreads和优衣库(Uniqlo)在内的热门网站已经在其网站上屏蔽了GPT爬虫,这可能会给OpenAI在搜索领域的雄心带来麻烦。OpenAI表示,即使网站选择将其内容排除在人工智能培训之外,也可能出现在其搜索结果中。
Prelovac表示,Kagi至少有一半的成本用于爬行和其他搜索数据来源。详细的网络索引是搜索引擎的关键,为用户提供详细的互联网内容视图。然而,Prelovac表示,对于那些寻求直接使用人工智能(ChatGPT推广的一种模型)回答用户问题的公司来说,数据具有另一个层面的重要性。
“生成式人工智能模型本身并不是很聪明,”Prelovac说。“为了获得任何高质量的生成人工智能输出,你需要访问相同的搜索索引。”
搜索初创公司You.com的创始人理查德·索彻(Richard Socher)说,无处不在的robots.txt文件为爬行设定了指导方针,迫使初创公司做出复杂的决定。这些文件还没有被发现具有法律约束力,所以只要不需要登录或用户凭证,公司就可以抓取公共数据,Socher说。
“当我们爬行时,我们尽量不给任何网站造成过度负担,”他说。“任何拥有robots.txt文件的网站,只要它只允许谷歌抓取,其他网站都不允许谷歌垄断搜索。”
Neeva是一家由前谷歌员工创立的搜索初创公司,去年被雪花公司(Snowflake Inc.)收购。Neeva倡导“爬行中立”,让初创公司更容易建立自己的搜索索引。彭博社报道,在法院做出具有里程碑意义的裁决,认定谷歌垄断了在线搜索市场之后,美国司法部正在考虑寻求补救措施,包括迫使这家搜索巨头与竞争对手分享更多数据,甚至分拆该公司。其中一项提案引起了相当大的关注,即要求谷歌分享其通过Googlebot收集的数据,或者向竞争对手开放其著名的搜索索引。欧盟的《数字市场法案》已经要求谷歌分享一些搜索查询数据。
对于iFixit的首席执行官维恩斯来说,谷歌因其搜索帝国而相对于其他人工智能公司的优势,是该公司反垄断问题的核心。“把谷歌搜索从他们的人工智能工作中分离出来,”他说,“会消除冲突。”
搜索引擎DuckDuckGo表示,搜索领域正在进行的技术变革使“谷歌与反垄断担忧相关的指数变得更加有问题”。
DuckDuckGo公共事务高级副总裁卡米尔?巴兹巴兹(Kamyl Bazbaz)表示:“在生成式人工智能时代,搜索索引极其重要。”
不管反垄断案的结果如何,搜索领域正在发生的变化强调了出版商控制自己命运的重要性,而不是过度依赖任何一个技术平台——包括谷歌,TPM的Ragazzo说。
“我们的信念是,你必须与读者建立真正的关系,”拉加佐说,“这就是你如何建立一份经得起不同时代考验的出版物。”——彭博社
×