「完美的搜索引擎」是否存在?这家公司向谷歌发起挑战

  新闻资讯     |      2025-01-19 05:13

  我甚至可以说,人类的未来取决于能否正确实现这一点。因为我们所消费的信息对我们有着巨大的影响力★★★。它决定了我们所知道的内容,进而决定了我们如何思考,最终决定了我们如何行动。

  网络上包含了数十亿的视频、图片和歌曲★★★,但由于我们无法很好地搜索它们,这些内容的大部分价值都被埋没了。例如★★,我真的很喜欢那些人们为世界做出某种自我牺牲的视频片段。YouTube 搜索在这方面表现得很糟糕。一个完美的搜索引擎应该能够找到你想要的任何媒体,无论你的搜索有多么复杂。

  但现在,已经存在能够近乎完美地处理复杂请求的 AI 系统★。我们对搜索引擎也应该有同样的期待。世界值得拥有一个完美的搜索引擎。

  尽管人工智能取得了诸多进展,但我们依赖的主要信息工具仍然是谷歌、社交媒体和主流媒体。这些工具都无法也不致力于提供全面、无偏见、高质量的世界理解★。

  谷歌搜索和必应搜索仍然与十年前非常相似★。当你输入一个查询,比如「shirts without stripes」(没有条纹的衬衫),它们会将你查询中的关键词与网络上的所有文档进行匹配。然而这种搜索方式在这里失败了★★,因为「without stripes」(没有条纹)超越了关键词匹配的理解能力。

  要构建完美的搜索引擎,你需要使用新颖的神经方法重新设计搜索算法,而不是关键词方法。传统的搜索引擎是在二十年前设计的,当时计算机还无法思考。神经搜索引擎更加混乱和不可预测,但随着时间的推移,它们将胜过传统搜索引擎。大型公司不会构建神经搜索引擎★,因为它们的基础设施和产品都是围绕旧范式构建的★★。而对于新玩家来说★,开发所需的机器学习架构和网络规模基础设施相当困难。Exa 有自由、经验★★,现在还有资源★★★,可以从头开始以正确的方式构建搜索算法★★。

  假设你有一个想法,并希望在网上找到类似的想法★。目前使用传统搜索引擎是不可能做到这一点的★★。例如,我有一个关于利用车顶充电的飞行汽车的想法,我想找到数百篇讨论这一想法的文章、推文、YouTube 视频和专家,而不是一些与之无关的内容★★★。谷歌在这方面完全失败了,因为这种搜索需要真正的理解。如果我有一个能够基于精确语义匹配内容的完美搜索引擎,我就能立即找到所需的一切★★★。

  我记得在 2021 年★★,当我告诉我父亲我正在构建一个新的搜索引擎时,他回答说★★★:谷歌还不够好吗★★★?

  我们需要修复信息生态系统★★★,以便我们能够作为一个信息灵通的物种度过下一个十年★★★。

  谷歌对搜索结果提供了很少的控制。一般来讲,你会输入几个关键词并希望搜索引擎能够很好地理解你★。你从来不会想到输入一个长句子来准确解释你想要什么,因为你知道那样行不通★。完美的搜索让你可以添加任何你想要的过滤器,而且它总是有效的★★。如果你在寻找要雇佣的人★★,你将能够添加诸如「曾在初创公司工作过」的修饰词,像「既懂 Rust 又懂 C++」这样的复杂连接词★,以及「没有在这些学校学习过」的否定条件。网络将感觉像是一个数据库,你可以根据自己的意愿任意过滤。

  如何才能打造一个完美的搜索引擎★,AI 初创公司 Exa 的 CEO Will Bryk 亲自撰写了一篇文章来回答这个问题。

  完美搜索最强大的地方在于它不是与人类配对★★★,而是与基于 LLM 的智能体( 2025 年推出)配对。人类与 LLM 聊天,LLM 在后台进行智能体搜索,这个过程可能进行了数百次搜索。

  你需要一群拒绝接受现状的人,并为之努力多年★★,直到一个抽象的愿景变为现实,即使其他人都不理解。

  一个完美的搜索引擎对世界的帮助可能比人们想象的还要大。而 Exa 是目前全球唯一一个致力于实现这一目标的组织。

  Will Bryk 表示 Exa 的目标是打造一个比谷歌更好的搜索引擎,一个能够像 LLM 那样真正理解你的搜索引擎。

  那么,为什么还没有人构建出一个完美的搜索引擎呢?原因有三 —— 金钱、技术和疯狂。

  然而这样的搜索引擎还不存在,不过我们可以先展示一些酷炫示例来说明完美搜索是什么样子的:

  大型语言模型(LLMs)能够解决研究生水平的数学问题,但今天的搜索引擎却无法准确理解一个简单的三词短语★★★。例如,如果你在谷歌图片中搜索「shirts without stripes」(没有条纹的衬衫)★★★,结果却几乎全是有条纹的衬衫★★★。

  要构建完美的搜索引擎★★,你需要一个具有正确财务激励的组织。谷歌每年通过搜索广告赚取 2000 亿美元★。完美的搜索不会为谷歌带来更多广告收入 —— 甚至可能减少收入★★。而 Exa 通过 API 使用和订阅赚钱,有强烈的动力去改进搜索★★,直到它变得完美★★。

  随着公司的发展和 LLM 技术的进步,Exa 的目标也在不断升级,他们不再仅仅满足于打造比谷歌更好的搜索引擎,而是希望打造一个完美的搜索引擎★★★。

  如果你曾经去 LinkedIn 找人、去 X(原 Twitter)找有趣的文章★★,或者向朋友打听好的初创公司★,那么在你意识里肯定觉得谷歌还不够好,因为你没有选择谷歌来获取这些信息★★。但这很荒谬,因为这些本质上都是对网络信息的搜索,而 2025 年的搜索引擎应该能够正确处理它们。

  目前★★★,世界上的信息完全是一团糟★★。每天都有大量的内容像消防水带一样涌向世界,没有任何组织性★★。

  要构建完美搜索引擎,你需要有点疯狂。自 2021 年我们成立公司以来,几乎所有人都认为我们在做的事情是疯狂的。「搜索有什么问题★★★?谷歌还不够好吗★?」你需要一群拒绝接受现状的人,并为之努力多年,直到一个抽象的愿景变为现实,即使其他人都不理解。这就是 OpenAI 在智能领域所做的,也是我们打算在知识领域做的事情。

  作为最后一个例子,想象我有一个关于飞行汽车如何利用城市基础设施的想法。我让 LLM 生成一份报告,列出我可以采取的所有措施来实现这一目标★★★。

  我们每个人几乎对所有事物的理解都是不完整的。无论你是在寻找公司★★、博客文章、人物、产品还是论文等,Google都会为你提供一小部分结果★★,与此同时,你会错过其他内容★。完美搜索解决了这个问题 - 如果世界上有 387 个实体符合你的条件,你应该能够找到所有 387 个。不是 10 个,不是 389 个★★★,而是 387 个★。正是你所要求的。完美搜索将让我们所有人对我们的世界有完整的了解★。

  有了 LLM + 完美搜索功能,只需几分钟就能制定出一个全面的行动计划。而如果只有 LLM + 传统搜索★★,这将永远无法完全实现 —— 我将永远只知道所有相关想法和人员中的一小部分,我的飞行汽车想法也将永远无法实现★★★。

  完美搜索从定义上就是我们信息生态系统的解决方案★★,因为它让每个人都能完全控制世界的信息 —— 我们的信息 —— 使其易于消化★★、清晰可读★★★、有用且可操作★。

  LLM 首先在网络上搜索所有类似的想法★★★,包括帖子、推文★★、研究论文、新闻文章、视频等。对于每个想法,LLM 会找到网络上最好的反驳意见(如果存在的话)。然后★★,LLM 基于所有这些想法创建一个全面★、逐步的计划。接着,针对计划中的每一步★★,LLM 会在我所在的城市中找到能够帮助实施该步骤的人★★★,从供应商到独立研究人员★★。LLM 会收集那些公开信息可用的联系信息★★,并为每个人创建一条个性化的消息★。

  我们人类一直在寻找其他人以建立友谊★★★、合作和社区★★。但我们这个先进社会所构建的最好的人脉搜索工具之一是 LinkedIn。然而,互联网上的信息远比这丰富得多。有了完美搜索★★,你应该能够找到任何你要找的人★★。如果我是正在研究 AI 对齐(AI alignment)的本科生,我应该能够轻松找到「那些抽出时间研究 AI 对齐并有博客的本科生」★。试试在谷歌上搜索这个,看看你会得到什么结果★★。完美的 web 搜索将把混乱的网络转化为比Meta或 X 更强大的社交网络★。

  虽然搜索算法没有改变,但所有关于 AI 搜索的炒作都来自于 AI 摘要的引入。谷歌 AI overview★★★、SearchGPT、Perplexity—— 这些产品背后都使用了像谷歌或必应这样的传统搜索引擎★★,然后利用 LLM 生成摘要★★★。

  我的回答是它还不够好。谷歌的传统搜索算法对于简单的查询非常有效 —— 比如「Taylor Swift boyfriend」(泰勒・斯威夫特的男朋友)或「Walmarthomepage」(沃尔玛主页)。但一旦查询变得复杂,它就会彻底失败 —— 比如「phds in the Bay area whove written about flying cars」(在湾区写过飞行汽车相关文章的博士)。

  问题不在于谷歌没有索引到所有这些信息 —— 事实上,谷歌已经索引了几乎所有网页(大约一万亿页)。问题在于谷歌的算法从根本上并不是为在一万亿页面上处理复杂搜索而设计的。

  LLM 生成的摘要很简洁,为我们节省了时间。但不幸的是,LLM 仍然受限于底层搜索引擎的质量。如果必应找不到某些内容★★,那么依赖必应的 SearchGPT 也无法找到。因此,今天的 AI 搜索主要是一个节省时间的工具,而不是一个真正更好的搜索引擎,能够找到我们以前找不到的东西。