谷歌深夜放复仇杀器 Gemini,最强原生多模态史诗级碾压 GPT-4!语言理解首超人类

Wallstreetcn
2023.12.07 00:45
portai
I'm PortAI, I can summarize articles.

Gemini,让谷歌再次伟大?Gemini 的设计优于以往的多模态模型,能够无缝地理解和推理各种输入内容。它能以人类一样的方式理解我们周围的世界,并吸收任何类型的输入和输出。这对于谷歌来说是一项重要的创新。

谷歌的复仇大杀器 Gemini,深夜忽然上线!

被 ChatGPT 压着打了整整一年,谷歌选择在 12 月的这一天,展开最强反击战。

多模态 Gemini,迄今规模最大、能力最强的谷歌大模型,在文本、视频、语音等多个领域超越了 GPT-4,是真正的一雪前耻。

人类有五种感官,我们所建造的世界、所消费的媒体,都是以这样的方式所呈现。

而 Gemini 的出现,就是迈向真正通用的 AI 模型的第一步!

Gemini 的诞生,代表着 AI 模型的巨大飞跃,谷歌所有的产品,都将随之改头换面。

塞进多模态模型的搜索引擎、广告产品、Chrome 浏览器……这,就是谷歌给我们的未来。

多模态的史诗级创新

以前,多模态大模型就是将纯文本、纯视觉和纯音频模型拼接在一起,就像 OpenAI 的 GPT-4、DALL·E 和 Whisper 那样。然而,这并不是最优解。

相比之下,在设计之初,多模态就是 Gemini 计划的一部分。

从一开始,Gemini 就在不同模态上进行了训练。随后,研究人员又用额外的多模态数据进行了微调,进一步提升了模型的有效性。最终,实现了「无缝」地理解和推理各种模态的输入内容。

从结果上来看,Gemini 的性能要远远优于现有的多模态模型,而且它的功能几乎在每个领域都是 SOTA 级别的。

而这个最大、最有能力的模型,也意味着 Gemini 可以用和人类一样的方式理解我们周围的世界,并且吸收任何类型的输入和输出——无论是文字,还是代码、音频、图像、视频。

Gemini 猜对了纸团在最左边的杯子里

Google DeepMind 首席执行官兼联合创始人 Demis Hassabis 表示,谷歌一直对非常通用的系统感兴趣。

而这里最关键的,就是如何混合所有这些模式,如何从任意数量的输入和感官中收集尽可能多的数据,然后给出同样多样化的响应。

DeepMind 和谷歌大脑合并后,果然拿出了真东西。

之所以命名为 Gemini,就是因为谷歌两大 AI 实验室的合体,另外也一个解释是参考了美国宇航局的 Gemini 项目,后者为阿波罗登月计划铺平了道路。

首次超越人类,大幅碾压 GPT-4

虽然没有正式公布,但根据内部消息,Gemini 有万亿参数,训练所用的算力甚至达到 GPT-4 的五倍。

既然是被拿来硬刚 GPT-4 的模型,Gemini 当然少不了经历最严格的测试。

谷歌在多种任务上评估了两种模型的性能,惊喜地发现:从自然图像、音频、视频理解到数学推理,Gemini Ultra 在 32 个常用的学术基准的 30 个上,已经超越 GPT-4!

而在 MMLU(大规模多任务语言理解)测试中,Gemini Ultra 以 90.0% 的高分,首次超过了人类专家。

Gemini 是第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型

MMLU 测试包括 57 个学科,如数学、物理、历史、法律、医学和伦理,旨在考察世界知识和解决问题的能力。

在这 50 多个不同学科领域中的每一个中,Gemini 都和这些领域最好的专家一样好。

谷歌为 MMLU 设定的新基准,让 Gemini 在回答复杂问题前,能够更仔细地发挥推理能力,相比于仅依赖于直觉反应,这种方法带来了显著提升。

在新的 MMMU 基准测试中,Gemini Ultra 也取得了 59.4% 的高分,这一测试包括了跨越不同领域的多模态任务,这些任务需要深入的推理过程。

图像基准测试中,Gemini Ultra 的表现也超过了之前的领先模型,而且,这一成就是在没有 OCR 系统帮助的情况下实现的!

种种测试表明,Gemini 在多模态处理上表现出了强大的能力,并且在更复杂的推理上也有着极大潜力。

详情可参阅 Gemini 技术报告:

报告地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

中杯、大杯、超大杯!

Gemini Ultra 是谷歌迄今为止创建的最强大 LLM 最大,能够完成高度复杂的任务,主要面向数据中心和企业级应用。

Gemini Pro 是性能最好的模型,用于广泛的任务。它会为许多谷歌的 AI 服务提供动力,并且从今天起,成为 Bard 的支柱。

Gemini Nano 是最高效的模型,用于设备端任务,可以在安卓设备上本地和离线运行,Pixel 8 Pro 的用户就能马上体验到。其中,Nano-1 的参数为 1.8B,Nano-2 为 3.25B。

Gemini 最基本的模型能做到文本输入和文本输出,但像 Gemini Ultra 这样更强大的模型,则可以同时处理图像、视频和音频。

不仅如此,Gemini 甚至还能学会做动作和触摸这种更像机器人的功能!

以后,Gemini 会获得更多的感官,变得更加有意识,更加准确。

虽然幻觉问题仍然不可避免,但模型知道的越多,性能就会越好。

文本、图像、音频精准理解

Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等各种形式的输入内容,因此它也能更好地理解细微的信息,回答与复杂主题相关的各类问题。

比如,用户先是上传了一段非英语的音频,然后又录了一段英语的音频来提问。

要知道,一般设计音频的归纳,都是用文字输入 prompt。而 Gemini 却可以同时处理两段不同语言的音频,精准输出所需要的摘要内容。

更厉害的是,如果我想做一个煎蛋,不仅可以用语音问 Gemini,还可以把手头有的食材拍个照片一并发过去。

然后,Gemini 就会结合音频中发送的需求,以及配图中的食材,手把手教你该怎么做好一个煎蛋。

甚至,每完成一步,都可以拍个照片,而 Gemini 则可以根据实际进度继续指导下一步该做什么。

手癌星人、不会做饭星人都有救了!

而且,这项能力还这使 Gemini 特别擅长解释数学和物理等复杂学科的推理问题。

比如,家长想在辅导孩子作业的时候省点事,该怎么办呢?

答案很简单,直接拍张图上去,Gemini 的推理能力足以解决数学、物理等各类理科问题。

针对其中任何一个步骤,都可以追问 Gemini 来获得更具体的解释。

甚至,还可以就出错的点,直接让 Gemini 输出一个和出错类型相似的题目巩固一下。

复杂推理轻松搞定

此外,Gemini 1.0 具有的多模态推理能力,可以更好地理解复杂的书面和视觉信息。这使得它在发掘埋藏在海量的数据中难以辨别的知识方面具有优越的性能。

通过阅读、过滤和理解信息,Gemini 1.0 还能够从成千上万的文档中提取出独到的观点,从而助力从科学到金融等众多领域实现新的突破。

AlphaCode 2:编码能力超 85% 人类选手

当然,基准测试终究只是测试,对 Gemini 的真正考验,是想要用它来写代码的用户。

写代码,就是谷歌为 Gemini 打造的杀手级功能。

Gemini 1.0 模型不仅可以理解、解释和生成世界上最主流的编程语言,比如 Python、Java、C++ 和 Go 的高质量代码。同时它能够跨语言工作,并对复杂信息进行推理。

从这一点看,Gemini 毫无疑问会成为世界领先的编程基础模型之一。

两年前,谷歌推出过一款叫做 AlphaCode 的产品,它也是第一个在编程竞赛中达到具有竞争力水平的 AI 代码生成系统。

而基于定制版的 Gemini,谷歌推出了更先进的代码生成系统——AlphaCode 2。

在面对不仅涉及编程,还涉及复杂的数学和计算机科学理论等领域的问题时,AlphaCode 2 都表现出了卓越的性能。

在与初代 AlphaCode 同样的测试平台上,谷歌的开发人员也对 AlphaCode 2 进行了测试。

结果显示,新模型展现出了显著的进步,解决的问题数几乎是之前 AlphaCode 的两倍。

其中,AlphaCode 2 编程的性能超过了 85% 的人类程序员,相比之下,AlphaCode 只超过了约 50% 的程序员。

不仅如此,当人类程序员与 AlphaCode 2 协作时,人类程序员为代码样例设定特定的要求,Alphacode 2 的性能会进一步提升。

AlphaCode 2 的运作依托于强大的 LLM,并结合了专为竞赛编程设计的先进搜索和重排机制。

如下图所示,新的模型主要由以下几部分组成:

- 多个策略模型,用于为每个问题生成各自的代码样本;

- 采样机制,能够生成多样化的代码样本,以在可能的程序解决方案中进行搜索;

- 过滤机制,移除那些不符合问题描述的代码样本;

- 聚类算法,将语义上相似的代码样本进行分组,以减少重复;

- 评分模型,用于从 10 个代码样本集群中筛选出最优解。

详情可参阅 Alpha Code 2 技术报告:

报告地址:https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf

更可靠、更高效、可扩展

对谷歌来说同样重要的是,Gemini 显然是一个效率更高、更可靠、可扩展的模型。

它是在谷歌自己的张量处理单元上训练的,比谷歌以前的模型(如 PaLM)运行起来更快、更便宜。

开发人员使用了谷歌内部研发的张量处理单元 TPU v4 和 v5e,在 AI 优化的基础设施上对 Gemini 1.0 进行了大规模的训练。

而可靠、可扩展的训练模型和最高效的服务模型,就是谷歌做出 Gemini 的重要目标。

在 TPU 上,Gemini 的运行速度明显快于早期规模较小、能力较弱的模型。这些定制设计的 AI 加速器是谷歌大模型产品的核心。

要知道,这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play 和 Android 等数十亿用户提供服务。它们还帮助了世界各地的科技公司经济、高效地训练大模型。

除了 Gemini,谷歌在今天还发布了迄今为止最强大、最高效,并且可扩展的 TPU 系统——Cloud TPU v5p,专为训练尖端的 AI 模型而设计。

新一代 TPU 将加速 Gemini 的发展,帮助开发人员和企业客户更快地训练大规模生成式 AI 模型,开发出新产品和新功能。

Gemini,让谷歌再次伟大?

显然,在 Pichai 和 Hassabis 看来,Gemini 的发布仅仅是一个开始——一个更大的项目即将开启。

Gemini 是谷歌一直在等待的模式,在 OpenAI 和 ChatGPT 接管世界后,Gemini 是谷歌探索一年得出的结论。

发布「红色警报」后,谷歌一直在追赶,但两人都表示,不愿意为了跟上步伐而走得太快,尤其是我们越来越接近 AGI。

Gemini 是否会改变世界?最好的情况是,它能帮谷歌在生成式 AI 竞赛中赶上 OpenAI。

但劈柴、Hassabis 等人似乎都认为,这是谷歌真正伟大的开始。

今天发布的技术报告,没有透露架构细节、模型参数或训练数据集。

艾伦人工智能研究所前 CEO Oren Etzioni 说,「没有理由怀疑 Gemini 在这些基准上比 GPT-4 更好,但没准 GPT-5 会比 Gemini 做得更好。」

打造像 Gemini 这样的巨量模型,可能需要花费数亿美元,但对于在通过云提供 AI 占据主导地位的公司来说,最终的回报可能是数十亿甚至数万亿美元。

「这是一场不能失败,必须打赢的战争。」

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。