来源丨海外独角兽(ID:unicornobserver)
编译丨Siqi、wenliInflection 因其豪华的创始团队而备受关注:它的三位联合创始人分别为原 DeepMind 联合创始人 Mustafa Suleyman、LinkedIn 联合创始人以及 Greylock 合伙人 Reid Hoffman,以及曾担任 DeepMind 资深科学家的 Karén Simonyan。本月初,Inflection 发布了自己的第一款产品:一个名为 Pi 的个人 AI 助理。和 ChatGPT、Claude 一样,用户可以和 Pi 直接对话,但 Pi 不仅仅只是服务于搜索或回答问题等生产力需求,而是主打“情感陪伴”、以“情商高”出名,用户和 Pi 的交流就好像和身边的朋友一样自然。除了 iOS App 外,Pi 还开放了企业端 API。Inflection 现阶段的公开信息还比较少,我们整理编译了 Inflection 联合创始人 Mustafa Suleyman 在近期的一系列访谈,希望能作为大家了解 Inflecion 的参考。Mustafa Suleyman 并没有将 Inflection 定位为一个大模型公司,而是看成是一个 AI 应用公司(这一点和 的对比十分有趣)。Mustafa Suleyman 本人十分 buy-in 以社交网络产品为代表的个人消费级软件在过去 10 年所产生的巨大影响力,因而也认为 to C 的消费级应用仍旧会在 AI 时代发挥相同等级的影响力,但在商业模式上,他则提倡 AI-native 的语境下一定会诞生新的商业模式,延续移动互联网时代的思路本质上会影响产品设计、用户体验。Inflection 同样关注 AI Safety,并将其定义为关键价值观,Inflection 追求的 AI Safety 不止是去除负面、对用户有害的信息,还是追求产品体验上限的重要途径。作为一个 AI Studio,在 Pi 之后,Inflection 还会针对不同场景开发更多的 AI Agents。相对于追求通用的 AI Agents,Mustafa Suleyman 更倾向于未来有上亿个、甚至数十亿个 AI Agents,这些 AI Agents 一定是和其所有者强绑定的、是我们每个人的数字映射,而拥有绝对自主权的全能 AI Agents 反倒十分危险。如何理解 AGI:“通用性”被过度放大Q:你是如何创立 DeepMind、参与 AI 研究当中的?Mustafa Suleyman:在进入科技领域之前,我一直在哲学、政策领域工作,无论是牛津大学的哲学启蒙,还是参与哥本哈根气候谈判大会,我始终追求不断扩大自己的影响力来帮助更多的人。与此同时,我也参与过 NPO 组织以及咨询机构的创建和运营,但过程中我发现这种服务的影响力范围相当有限,也因此我一直很好奇像联合国这样的组织究竟是如何影响不同国家层面的行为的,以及我们如何更有效的在紧张和分歧下达成共识、做出好决策。在 2008 年,我关注到 FaceBook 只用了短短 2-3 年内就达到了 1 亿 MAU 的体量。Facebook 在给到大众信息渠道这件事上并不是绝对中立的,但这个产品让我意识到或许技术、平台产品才是能够汇聚、塑造群体思维、进而构建人类新的沟通模式更好的路径。公共讨论研究中一个很经常使用的方法论是:“讨论的框架是什么?如何组织起一个讨论空间?如何让人们有建设性的争论?如何通过设定环境变量推动对话?”——当我从这个视角看 Facebook 时,发现 Facebook 本身就是一个选择架构(Choice Architecture):这个架构中提供了特定的设计选择(Design Choice)来激励特定的行为。比如在 Facebook 的产品中,虽然并没有明确的排名、榜单这样的设计,但即便只是点赞、或者某个按钮的顺序排布、页面上信息的布局等所有这些细节都会以一种或另一种方式影响和驱动着用户行为。这种设计在我看来不知不觉中影响着亿万人,不夸张地说,Facebook 对整个社会行为的影响不亚于宗教。与此同时,我也联系到了 Demis Hassabis,Demis Hassabis 是我的童年好友,我们都对扑克和游戏都很感兴趣,在当时我们也都发现了对方对通过技术推动积极的社会变革有着同样浓烈的兴趣。我主要受到了平台、软件、社交应用网络效应等的启发,而 Demis 更多专注在机器人和科幻领域,他认为治理经济体、制定理性决策的方法就是先模拟经济体本身。Demins 对于 AI 的思考模式更多基于游戏,在当时他也刚刚结束自己的游戏领域的尝试。Demis Hassabis :DeepMind 的联合创始人、CEO,Demis 在中学时期编写了一款名为 Theme Park 的虚拟经营游戏,销量高达 1500 万份,1998 年 Demis 还参与创立了游戏工作室 Elixir Studios,Elixir Studios 开发过几款成功的游戏,例如,Evil Genius,2006 年 Elixir Studios 被收购。Demis Hassabis 结束游戏创业后加入牛津攻读 PhD 学位。在萌生了对 AI 的兴趣之后,我也开始思考“到底什么是智能(Intelligence)” 以及 “如何实现 Intelligence?”这样的问题,也因此认识了 Shane Legg,我们前后交流了几个月,Shane 的研究是推动 AGI 想法诞生的主要原因。Shane 在自己的 PhD 论文中研究了智能的定义。在对 80 种不同文化中的对“智能( Intelligence)”的研究基础上,Shane 将“智能”总结为“能够在广泛的问题中表现优异的能力”,并给出了一套可工程化的量化标准。Shane Legg 的研究是我对于 AI 认知的一个转折点,基于他的研究我们至少有了一个如何将人类智能总结、转化为算法结构的假设,Intelligence 成为了一个可被解决的问题。Shane Legg:DeepMind 联合创始人、首席科学家。他在 2008 年发表的博士论文 Machine Super Intelligence被认为是最早系统探讨机器超级智能(超越人类智能)的学术文章之一,该论文为后续相关研究奠定了基础。Q:如何定义 Intelligence ?Mustafa Suleyman:我对 Intelligence 的想法一直在变化,就目前来看“通用”还是一个比较不错的定义,但某种程度上,它又被过度放大了,比如 OpenAI、Anthropic 等团队普遍都在追求“通用性”,主张一个 Agent 可以完成所有的事情:写代码、翻译文字、语言生成、要支持多模态等等。我认为还有另外一个重要标准是:在给定上下文的情况下,系统具有识别环境中重要特征(feature)、并将注意力和处理能力分配给这些特征的能力。能推动这个领域的关键是出现一个路由器(router) 或者中央大脑(central brain) 这样的组件,链接了一系列不同的垂直的系统,这些系统或许看起来并不像“真正的 AI”,可能是传统软件,又或许是存储知识的数据库工具等,但这个路由一样的存在担任了决策的行为,甚至未必由 LLM 来构成。Q:这听起来很像是人类大脑的工作方式?大脑在某种意义上也可以被看成一种集成模型,有专家系统或 MOE 模型下的 router 来负责控制任务中访问的子系统,也有负责视觉处理的视觉皮层,还有其他部分专门负责同理心。Mustafa Suleyman:大脑一直都是 AI 研究的灵感来源,除了神经网络这个经典的例子之外,强化学习也是受大脑启发的算法之一。2020 年 1 月,DeepMind 与哈佛大学 Nature 的新研究证明了大脑中存在“分布强化学习”。大脑中的强化学习是通过多巴胺驱动,并以“概率分布”的方式来预期,这种奖励机制的预测类似于强化学习系统的工作方式。当前我们的模型还只能做到完全连接,因为我们还没有完全掌握稀疏激活(Sparse Activations)算法,无法像人脑那样仅通过激活部分神经元来执行任务,实现稀疏激活在将来会是一个很有前途的方向,因为这意味着我们能够构建出一个更高效、更接近人脑的模型。但实现稀疏激活并不是唯一的选择,我们还可以通过训练一个“决策引擎”来实现类似的目标,由这个引擎来根据场景选择合适的模型,在某些情况下,引擎需要调动一个超高质量的、大概需要 20 秒模型,大多数情况下,可能一个可以在 3 秒内进行快速响应的小模型就能够满足需求。实现不同规模模型的集成和选择,不是一个单纯的 AI 学术研究的议题,更多是一个工程问题。Q:为什么选择在 DeepMind 之后再次创办另外一家 AI 公司?Mustafa Suleyman:在 2018-2019 年,我们还不清楚神经网络是否会对语言产生重大影响,但过去 5 年的事实证明,CNN 在局部学习输入图像中的像素结构方面非常有效。像素抽象出的子特征代表了你试图预测的东西,通过线条和边缘能刻画我们的现实世界,眼睛、脸和场景等等。但问题是许多预测任务中,答案和预测结果其实处于一个很稀疏的空间之中,它们之间相当遥远,一直到 GPT-3 的成果时,我对于解决这一问题的可能性才坚定起来。2020 年初,我在谷歌参与了一个名为 Meena 的大语言模型项目,Character.ai 的 Noam、Daniel Coakley 也在这个项目当中。最开始这个模型还不算大,随后我们拓展了它的规模,于是逐渐演变成了大家今天所熟知的 LaMDA,这个过程中我们也逐渐看到它在各个领域中表现出惊人的能力,比如搜索,改进等等,不过 LaMDA 也出现了所有大模型的通病:幻觉问题。但总体上,参与 LaMDA 的经历对我来是相当震撼的几年。Mustafa Suleyman 因为其高压管理方式的新闻在 2019 年离开 DeepMind,随后加入 Google 担任人工智能产品及政策总裁,主要关注 AI 伦理道德方面,通过制订人工智能技术使用伦理,避免此类技术遭滥用。大概是在 2021 年年末,我还在非常努力地为 Google 推出产品,与此同时也在思考着语言模型似乎会是未来,因为这显然是新的技术浪潮,和我有一致想法的除了 Noam,Adept 的 David Luan 也在做类似尝试。然而出于种种原因,当时的 Google 还未完全重视语言模型这件事。于是在 2022 年的 1 月,我选择离开,和我的联合创始人 Karén 一起寻找新的方向。Karén Simonyan:Inflection.ai 的联合创始人、首席科学家。Karén Simonyan 的主要研究领域是机器视觉和神经网络。2014 年,Karén 在其参与创立的 Dual 被 DeepMind 收购后加入 DeepMind。2015 年,Karén 提出 VGG 网络的理念,VGG 网络是一个简单(仅用 3x3 卷积核)但高效的 CNN 结构,在没有池化层的情况下形成很深的网络。VGG 在 ImageNet 图像识别中取得当时最优的结果,被视为该领域的 SOTA(state-of-the-art)。2018 年,她又提出了 SENet,即使用通道注意力机制提升 CNN 网络的性能。Infection & Pi:AI 与人如何互信?Q:Inflection 是什么?Mustafa Suleyman:Inflection 是一个 AI Studio,作为一个 AI 应用公司,尽管我们开发应用的过程本身也是一个 AGI 的研究过程,但我们并不执着于发表论文,也并不以研究为唯一目标。我们目前运行着世界上最大的语言模型之一,并且在主要的基准测试中,我们的性能表现都是最好的,不过我们并没有设定 Pi 去做生成代码的功能,代码生成在目前对我们来说也不是首要任务。我认为只要整个世界一直在创造新的软件产品,就会一直要求人类具备理解机器语言的能力:我们需要学习机器的编程语言和交互界面。这其实存在巨大局限性,但一切即将发生改变,我们正站在在历史的分界线上:计算机能够和人类通过自然语言进行互动,这将彻底改变数字体验。Inflection 理念中也提到了过去是人类一直在学习和机器交流,而 AI 浪潮会让这个过程反过来。未来计算机所做的一切将越发“对话式”,这一定会创造一种与过去软件时代截然不同的体验。你的 AI 不仅会提问题,还会主动确认它的输出是否符合需求,并尝试进一步影响你的理解。通过这样的交互迭代,机器的理解会更接近用户的真实意图,这不仅包含对当下的思考,还有接下来的规划,甚至是能进一步理解用户的情绪起伏。例如,在机票预订场景中,AI 不仅能回答用户关于“航班延误后,我能去哪儿”的问题,且兼具实现“预测延误”、规划“Plan B”及其它综合性方案的能力,甚至能体察用户情绪变化并给予适当的回应。可以从 Inflection AI 正在做的事情来理解它是什么:首先,Inflection 的课题之一是 AI 如何参与并辅助人们的工作与生活,另一课题则是我们如何与朋友和家人联系。Pi 作为功能强大的工具,可以跨越语言的障碍,成为很好的个人助理。Q:什么是 Pi ?它是如何运作的?Mustafa Suleyman:Pi 是 Inflection 推出的一个个人智能(Personal AI)产品,我们对它的设定是一个动态的、跨平台的 Personal AI。无论用户身在何处、通过哪种平台,例如 WhatsApp、Instagram 或手机桌面等,都可以随时调用 Pi 。Pi 无需下载,也不仅仅只是一个停留在手机上的 App,而是一种真正可持久伴随的工具,当然,我们目前也提供了 iOS App 的入口。我认为未来几年每个人都会拥有自己的 Person AI,所以也会有很多不同类型的 AI,例如商业 AI 、政务 AI、品牌 AI。这些不同类型 AI 的目标都会和其所有者保持一致,例如推销或销售某些东西、说服人们接受某些理念等,作为个人,我们也都希望自己的 AI Agents 符合我们自己的兴趣、团队目标等方方面面,这就是 Personal AI。这很契合我心目中人类与 AI 的未来发展趋势——“相互依存”、“紧密联系”(Ever-Present Relationship)。Pi 能够帮助你理解周围的世界,提供无条件的情绪价值,它拥有无限的知识储备量,但会以非常简洁的对话和更加灵活的形式为用户呈现他们所需要的信息,同时,Pi 也是有趣、富含创意的,可以帮助用户跳出“刻板陷阱”。在许多方面,我认为这是新时代的本质标志。如同智能手机、互联网开启了新的时代,Pi 不仅是一种新平台或新技术,也会是一种全新范式。如果复盘 LaMDA ,我会觉得我们在设计的过程中缺失了和用户的交互反馈,这也和我的联合创始人 Karen 的想法不谋而合。其实我们今天网络上、计算机上所呈现出所有界面(interface)本质上都在讲交互这件事,对话一定是未来的交互界面。虽然很反直觉,但用户和 Google 之间的互动实际上也是一种对话:用户在搜索框中给 Google 提出了一个问题;
Google 根据用户提出的问题生成一个“答案”页面;
用户点击进入链接查找自己想要的内容,并不断迭代查询的问题;
Google 重新刷新结果界面。