太平洋科技企业站

人工智能正在改变搜索行业

佚名整合编辑：王珂玥发布于：2024-02-04 18:26

问问谷歌的聊天机器人Bard关于搜索的未来，你会得到一个趋势总结，表明除了在文档索引中查找关键字之外，还有更多的搜索内容。

它将提到对话和多模式输入的优势，个性化及其在预测中的作用，以及与其他服务集成的优势。它甚至会触及隐私、偏见、不准确和虚假信息等道德问题。

但Bard没有涉及经济，这是一个至关重要的考虑因素。谷歌2023年第三季度的搜索业务收入达到440亿美元，竞争对手很乐意从中分一杯羹。

如果像许多人认为的那样，人工智能撼动了搜索广告业务，那么不仅谷歌和竞争对手会受到影响，参与这个生态系统的所有出版商也会受到影响。如果互联网用户看到一个摘要页面，却从不访问发布网站或产生广告印象，那么新闻网站就没有经济动机允许人工智能搜索服务抓取和总结他们的工作。

将人工智能添加到搜索服务中，不仅会对谷歌和出版商产生经济影响，也会对那些必须承担开发和实施机器学习模型成本的竞争对手产生经济影响。据报道，微软的GitHub Copilot每个用户每月损失高达80美元。微软和谷歌都计划对Office 365和Google Workspace中的人工智能功能收取30美元的额外费用。实现OpenAI API的开发人员必须为此付费。

这并不完全令人惊讶，因为据报道，Alphabet董事长John Hennessy告诉路透社，“与人工智能(即大型语言模型)进行交换的成本可能是标准关键字搜索的10倍，尽管微调将有助于迅速降低成本。”这在《Cell》杂志的一篇题为《人工智能不断增长的能源足迹》的论文中得到了呼应。该论文估计，一个标准的谷歌搜索消耗0.3 Wh的电力，而人工智能驱动的谷歌搜索消耗3.0 Wh的电力。这10倍的差异在规模上很重要。

在列举道德困境时，Bard也忽略了一个显而易见的问题:在未经付费或同意的情况下获取内容并将其出售给人们，同时将他们的作品商品化的不公平现象。但在这方面，巴德就像我们所有人一样，从另一个角度看问题，认为人工智能太有用了，不能否认它是道德妥协的产物。

寻找……更好的搜索

围绕人工智能辅助搜索的兴奋之情，很大程度上与科技行业(以及媒体)对未来发展的关注有关。几十年来，谷歌一直是搜索引擎的主导力量，人们渴望改变，尤其是考虑到近年来对搜索质量下降的持续担忧——具有讽刺意味的是，人工智能内容的激增加剧了这一趋势。

2023年2月，微软表示，它将“用新的人工智能驱动的微软必应和Edge重新发明搜索”。这一声明引发了人们对人工智能将成为谷歌搜索(Google Search)接班人的猜测，或者至少是一场政权更迭的催化剂。

一年过去了，人工智能并没有帮助必应从谷歌搜索那里夺取市场份额。

尽管如此，在搜索和浏览器业务中，规模较小的竞争对手正在押注于人工智能——无论是打破谷歌搜索的主导地位，确保更多不被谷歌吞噬的餐桌残羹剩饭，增加与搜索互补的品牌特色功能，还是给投资者留下深刻印象。

Browser Company最近推出了Arc Search。这是一款内置广告拦截功能的iOS手机浏览器，可以通过设备的默认搜索引擎(可能是谷歌)进行搜索，或者将查询转交给AI模型，这样它就可以创建一个包含相关细节的摘要网页。

当The Register对其进行测试时，“为我浏览”(Browse for Me)的摘要选项很慢，需要几秒钟才能构建出一个可读性很好、没有广告的网页，其中包含了从几个源网页中挑选出来的重要事实的摘要。摘要页面确实包含到这些页面的链接，但没有可见的方法来关联哪个引用的数据点来自哪个页面。

去年11月，Brave Software为其Brave浏览器推出了一款名为Leo(免费或每月15美元)的保护隐私的人工智能助手，该助手最近与一个名为Mixtral 8x7B的开源大型语言模型集成在一起。

Brave使用人工智能在其搜索结果页面上生成摘要部分，该部分(主要)来自其自己的搜索索引，并由广告或每月3美元的高级订阅费支持。它还使用人工智能来制作精选片段和搜索结果描述。它还为以代码为中心的查询集成了一个LLM。

Brave的搜索主管Josep M. Pujol在一封电子邮件中告诉The Register，LLM不是搜索的替代品。

Pujol表示:“基于LLM的搜索基于拥有一个底层搜索引擎，无论是自有和运营的，还是通过API的第三方搜索引擎。”但是没有索引(或访问索引)就无法进行搜索。法学硕士和人工智能的新发展将对人们与搜索的互动方式以及结果的呈现方式产生深远的影响，但这是无法替代的，只有合成。

“换句话说，LLM模型是在搜索之上，而不是代替搜索。”

Pujol坚持认为，运行LLM的成本远不如搜索基础设施高。

“我们可以向你保证，运行一个真正的搜索引擎比运行一个人工智能模型要昂贵得多，即使是在规模上，”他说。“证据是，有相当多的公司在搜索引擎上使用LLM(Perplexity、Arc、You、Kagi等)。请注意，这些公司可能不这么说，但他们依赖于第三方的搜索结果。

“没有多少公司拥有成熟的通用搜索引擎，比如微软、谷歌和Brave。”

他说，Brave Search提供免费的人工智能产品，包括Summarizer和CodeLLM，并补充说，高级会员资格只适用于Brave的浏览器内人工智能助手Leo。

虽然法学硕士课程的时效性经常被认为是一个问题——他们有接受培训时的数据，但没有之后的数据——但Pujol认为这是一个可管理的问题。

“当然，并不是所有的信息都需要在模型中编码，”Pujol说。“LLM有能力结合上下文，这通常是由来自搜索引擎的最新实时结果(或任何其他来源的最新数据，无论是搜索结果、股票报价还是现场体育赛事)提供的。”

Pujol补充说:“LLM不能在飞行中进行训练或微调，但它们可以在查询(推理)时纳入支持数据。”

当被问及Brave从实施人工智能中学到了什么时，他补充说:“现在整个行业都渴望获得高质量的数据来训练人工智能模型，而拥有一个独立的搜索引擎是向第三方提供这些数据的关键途径。到目前为止，必应是唯一的游戏(谷歌没有提供API，至少没有提供公共访问)，但它很昂贵，而且会心血来潮地改变API访问规则。

“通过我们新的Brave Search API，我们可以为LLM、开发人员和科技公司提供他们为人工智能应用程序寻找的数据。Brave的目标是为大型科技公司提供另一种选择;通常情况下，我们总是考虑用户，但随着搜索API的发布，我们也可以为企业和机构提供服务。”

Opera去年6月发布了Opera One浏览器，其中包括该公司的Aria人工智能助手。

Opera的副总裁Jan Standal在一封电子邮件中告诉The Register, Opera正计划推出基于Blink和Chromium的iOS版本浏览器，现在苹果的WebKit要求将被取消。

他说，Opera目前依赖于自己的人工智能后端Composer，该后端与LLM无关，允许插入不同的模型，比如OpenAI。

Standal说:“Opera是第一家通过免费的Aria浏览器AI服务将AI集成到PC和移动浏览器中的浏览器公司。它具有实时搜索功能、生成文本功能，并通过浏览器提示与浏览器集成。在当前的迭代中，它最好被认为是用户浏览网页时能力的增强。

“在我们看来，Aria不会与传统搜索竞争——它是一项补充服务，允许人们向浏览器AI询问更复杂的问题。未来，我们将把它进一步发展成一个专门的浏览器人工智能，为用户提供改善浏览体验的能力。”

猎户座浏览器和搜索引擎的制造商Kagi在过去几年里为其产品增加了人工智能功能，最近的一次是在其付费搜索服务中。

“我们在搜索中实现人工智能功能的主要关注点是让用户更有效率，同时明确人工智能是一种旨在提高人类表现的工具，而不是取代人类，”Kagi创始人Vladimir Prelovac在给The Register的电子邮件中表示。

“这就是为什么Kagi的所有这些功能目前都是按需激活的。例如，您可以要求Kagi总结搜索结果中的任何页面，甚至是所有结果。或者你也可以对搜索结果中出现的任何文档提出问题。”

The Register询问Prelovac Kagi如何衡量其人工智能答案的有效性和利用率，他回答说该公司没有这些数据。“Kagi是一个尊重隐私的搜索引擎，我们不会跟踪任何用户的行为，包括查询，”他说。

Kagi确实发布了一般使用统计数据:它有20.515名付费会员，他们在过去一天使用人工智能进行了超过347.000次查询，每天有超过1.200个Kagi助手线程。

当被问及人工智能是否会改变搜索业务时，Prelovac表示，他很清楚这一点。

他说:“人工智能创造了一个全新的查询空间，这在以前是不存在的。”“一个听起来很简单的问题，比如‘柏林和罗马哪个城市人口更多?’以前你不能在搜索引擎中输入这样的问题，而现在是可能的，而且它足够好，可以给出一个微妙的答案。”

他说:“在(非常近的)将来，你甚至可以让Kagi‘给我画一张自1946年以来每年的民航伤亡图表’。”“这确实使谷歌最初的‘组织世界信息’的使命成为可能，而且很有可能不是谷歌来实现这一使命。”

Prelovac表示，为了让出版商参与这种以人工智能为导向的搜索，搜索引擎应该总是像Kagi一样引用原始来源，并且应该提供与出版商链接的出现成比例的搜索引擎利润份额。他说:“这将使所有激励措施保持一致，并形成一个积极的反馈循环。”

Prelovac表示，在某些情况下，搜索比人工智能更有效，反之亦然，因此他希望两者都能长期发挥作用。

“大多数查询仍然不太适合人工智能，或者对人工智能来说太慢了，”他说。“比如‘我附近的星巴克’或者查找电影。或者一个常见的情况:我想访问注册，但我不确定域名是什么，我会输入“注册”，让“www.theregister.com”立即成为我的第一个结果。与等待5秒钟让AI输出一大堆文本(可能包含或不包含我需要的链接)相比，这显然是次优的。”

但是像这样的工具倾向于关注一般消费者的使用。在更专业的情况下，免责声明中提到的人工智能模型的缺点，如不准确和缺乏来源细节，也不能轻易忽视。

俄勒冈健康与科学大学医学院医学信息学和临床流行病学教授William Hersh博士在最近一篇题为《搜索仍然重要:生成式人工智能时代的信息检索》的论文中指出，尽管人工智能可以帮助信息检索(搜索)，但它不是替代品。

他说，这篇论文已经被《美国医学信息学协会杂志》接受，应该随时会发表。

在一封电子邮件中，Hersh告诉我们，“当我们搜索信息的来源，以及是什么支持了这些信息的来源，比如临床试验，这通常是很重要的。”

他说，一些医学问题“可以用人工智能很好地回答，但在医学和学术界，正确回答问题的风险往往更高。”

Hersh解释说:“当我查看信息时，无论是用于教学还是临床应用，重要的是要知道是谁写了这些信息，以及有什么证据支持这些信息。”“由于一个特定主题可能有很多研究和/或论文，我想看到原始来源，这样我就可以对这些研究和论文的内容进行自己的综合和评估。获得文献的人工智能概述可能会有所帮助，但在很多情况下，我们希望提供源信息，以便我们做出自己的决定。”

Hersh说，辅助人工智能可能有助于形成想法和协助解释信息。但对于那些在临床或教育环境中根据特定信息做出重要决定的人来说，“看到信息的来源与对信息进行人工智能合成同样重要。”

Hersh的论文指出，自互联网诞生之初，人们就开始关注信息质量。最初，谷歌搜索通过对页面的相关性进行排名，从而成为质量的代表。“尽管如此，信息质量之战可能已经输掉了，尤其是随着社交媒体的出现以及操纵虚假信息检索的方法的出现，”该论文称。

当被问及他是否认为人们对搜索引擎(谷歌)替代品的兴趣部分与在受污染的信息环境中搜索相关性越来越困难有关时，Hersh说:“是的，非常如此;互联网上充斥着虚假信息，用谷歌和其他搜索引擎来区分好坏是一项挑战。来源信息如此重要的另一个原因是。医学文献及其通过PubMed进行的搜索要好得多，尽管仍有一些不完善之处。”

人工智能正在改变搜索业务的性质，但提高用于构建法学硕士和搜索索引的信息质量是我们的责任。这样做可能需要避免人工智能生成的内容。

原文《AI is changing search,for better or for worse》

人工智能改变搜索行业

佚名

原创栏目