【德勤】搜索的未来.pdf

2022-03-17
6页
1MB

潘杜纳亚克:谢谢,汉尼什。这是一个很好的问题。这是我们经常考虑的一个问题,但一个非常好的起点是了解搜索如何工作的一些基本背景,因为我认为这很好地为搜索的未来奠定了基础。一个很好的起点就是谷歌的使命,它真正告诉我们搜索是如何工作的,即组织世界信息并使其普遍可访问和有用。


所以如果你看“组织世界的信息”,什么这是什么意思?世界资讯,其中很多当然是在网络上。并组织起来,我们要做的第一件事就是去拿所有这些内容,抓取它获取内容,并将其带到我们的服务器上。然后我们创建一个网络索引。什么是索引?索引就像书后的索引。


有一个词,这是它出现的所有页面,除了有两个重要的区别。一个简单的区别就是规模。当然,一本书可能有 300 页。也许这是一个权力的游戏这本书有一千页长。当然,网络有数千亿页。所以我们建立的这个指数的规模是什么相当了不起。第二个区别就是当你在书的后面查一个索引时,你一次查一个词,但在网络上你一次查多个词,这意味着数字的组合爆炸您可以查找的索引的方法网络。事实上,我们每天都会收到来自世界各地的数十亿个查询,因为这种组合爆炸。所以这是我们如何组织世界信息的本质,然后下一部分是你如何使它有用。为此,您需要排名。


因为如果我简单地说,这里有与您的搜索查询匹配的百万页,这实际上并不是很有帮助,因为您没有时间浏览百万页。所以我们需要以某种方式对这些页面进行排名,让最有帮助的页面排在排名靠前的位置。那就是谷歌搜索算法的作用。它当然,由于规模挑战,必须通过算法完成。我们可以谈论更多,但问题理解语言是核心这个排名算法。汉尼什·帕特尔:所以我想到了你所说的,Pandu,一次只有一个词,就像你用一本书做类比一样,正确的?甚至就在我们拥有这个的时候谈话中,我们没有人一次说一个字。我们将这些词连接在一起来构造那个句子。


所以很明显,语言对于搜索的工作方式和确保它运作良好。因此,考虑到这一点,我们多年来在这种自然语言查询、理解自然语言方面看到了哪些重大创新?我会要求某事与其他人保持相关性的方式高效,并真正以自然的方式找到我正在寻找的东西?很想听听你对此的看法。潘杜纳亚克:正如您刚才提到的,Hanish,理解语言确实是搜索的核心。您需要了解查询的语言。你什么意思当你问这个问题?你需要理解文件的语言。


文件谈了什么和它们是如何相互关联的?查询与文档有何关系?这真的是它的核心。我们一直在发展语言理解从最早的时候开始的技术,即使是简单的事情,例如拼写纠正,也取决于对语言如何工作的理解。而且多年来我们开发了许多不同的技术,但在过去的五到七年里,有由于深度学习或使用这些深度神经网络的机器学习的出现,语言理解的技术发展在某种程度上加速了。在这个时代,这是一个巨大的进步。首先是所谓的前馈网络是第一类一代神经网络出去。


但随后,大约在两三年前,谷歌研究团队建立了一个新系统,称为 BERT,它基于这种技术,称为变压器。这种特殊的技术真正突出并使用了对于更好地使用上下文的语言很重要。突然之间,您可以在查询和文档中获得很多以前无法获得的细微差别。因此,我们在搜索中使用了BERT,并在2019 年,搜索质量取得了最大的进步之一,因为我们获得了增强的语言理解。这种类型模型的趋势,这些基于变压器的模型变得越来越大,真的最终我们创建了一个新模型去年称为多任务统一模型,我们亲切地称之为妈妈。MUM 就是这种出色的模型,它既可以理解语言,也可以生成语言。


这是关于一个比我们拥有的 BERT 模型大一千倍,并且在它可以做的事情上更加强大。特别是多任务方面,因为它可以用于搜索中的各种任务。排名之类的东西,信息之类的东西提取,分类之类的东西。所有的这些事情是由这个单一的模型以一种非常了不起的方式实现的。和所以我们只是看到语言理解的这种加速以及我们现在可以构建的所有能力正因为如此。Ragu Gurumurthy:潘杜,这很迷人。搜索不仅是给我我正在寻找的东西,还可能是我应该寻找的东西。看起来像 BERT妈妈也许可以达到圣杯。它不仅与上下文相关。您还可以使其个性化,与我和其他人的上下文相关。


是我的理解正确吗?那是圣杯吗?这就是我们正在做的吗,Pandu?潘杜纳亚克:我的意思是,我认为在某些情况下,诸如个性化之类的东西都很重要,尤其是对于非常广泛的主题有各种各样的答案。但对于许多其他情况,它的核心只是理解语言,结果证明它比人们想象的要微妙和微妙得多。所以,让我给你一个我最喜欢的示例查询,它在某种程度上说明了这一点。许多年前,我在我们正在进行的一个实验中看到了这个查询,它是询问“鞋底对孩子有好处吗?”当我说这个问题时,你和我那只鞋底立刻是一种鱼,这可能是一位担心的父母,他们想知道是否可以喂孩子唯一的食物。


在这个实验的时候,大概是十年前,谷歌搜索根本不理解这个查询。它认为鞋底实际上是关于鞋底的,它展示了很多关于儿童鞋的结果。所以这是理解是什么的一个例子。我们当时进行的实验是语言理解方面的一项特殊创新,搜索突然明白,事实上,sole 是一种鱼。所以今天,如果你问这个问题,“鞋底对孩子有好处吗?”你会发现我们似乎明白唯一就是一切关于鱼,都是关于鱼的建议。但即使在今天,你也会发现该页面偶尔会出现在鞋子上的结果。所以我们还没有完全确定它,所以那里在理解语言中这些微妙的细微差别方面还有更多工作要做。这就是我认为真正的创新所在。


你我都认为语言是理所当然的。但是要自动化它是非常微妙的并且细致入微。Ragu Gurumurthy:我只能想象。这只是说英语,而不是如果你用其他语言进行搜索。这种文化和语言 [听不清],这将是一个巨大的挑战。潘杜纳亚克:我完全同意你的观点,我们在世界各地开展业务,所以我们当然必须在所有这些地方进行专业化和使用语言理解。在像印度这样的地方,人们会说多种语言,所以你甚至不会只有会说英语或只会说印地语的人。他们经常会混合说它,有点像Hinglish,所以你也需要了解它的复杂性。汉尼什·帕特尔:那太棒了。


潘杜,在你谈到的那个例子中,你给我留下了深刻的印象,对孩子来说是唯一的好处,正确的?而且,如果我想一想,我们谈到了进化以及互联网是如何通过基于文本和基于图像的方式发展的,显然是在过去的 N 个数字中多年来,更多的音频和视频格式。这将如何运作或MUM 的演变将是什么?比如说,音频?因为我可以说,“鞋底对孩子有好处吗?”有些人可能会想,“灵魂音乐真的对孩子有好处,”对吗?他们可能会想到从音乐的角度来看,而不是作为音乐的一部分鞋或一种鱼。


所以我很想得到你的关于进化走向的想法继续为MUM或任何引入音频和视频格式的事物发展。潘杜纳亚克:这是一个非常有见地的问题,哈尼什。我们正在为 MUM 寻找的真正令人兴奋的机会之一是在多模式搜索领域。因此,事实证明,由于各种技术原因,您可以同时使用图像和文本,例如,作为 MUM 模态的输入,它可以理解图像和文本之间的关系。现在,如果你能做到这一点,你可以提出很多问题像简单的文字问题那样问并不容易。所以假设你看到有人穿着一件衬衫,上面有非常漂亮的图案,你想要同样的衬衫,但颜色不同。

【德勤】搜索的未来.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00