手机能跑！微软小模型击败 Llama 2，96 块 A100 GPU 训练 14 天，参数规模仅 27 亿

微软发布了参数规模为 27 亿的小语言模型 Phi-2，性能表现超过了 130 亿参数规模的 Mistral 和 Llama 2，甚至超过了谷歌的 Gemini Nano 2。Phi-2 具有足够小的参数规模，可以在笔记本电脑和手机等移动设备上运行。这一系列小型语言模型可以帮助研究人员在机器可解释性、安全性改进或各种任务的微调实验上进行探索。

智东西 12 月 13 日报道，昨日晚间，微软又亮出了小模型大招！

微软发布了 27 亿参数规模的小语言模型 Phi-2，经研究人员测试，Phi-2 在参数规模小于 130 亿的模型中展示了最先进性能。

从性能表现看，Phi-2 在 Big Bench Hard（BBH）、常识推理、语言理解、数学和编码基准测试中，其平均性能得分已经超过 70 亿、130 亿参数规模的 Mistral 和 Llama 2，在部分基准测试中超过谷歌的 Gemini Nano 2。

Phi-2 还有一大优势是，因为参数规模足够小，其可以在笔记本电脑、手机等移动设备上运行。

过去几个月间，微软研究院的机器学习基础团队陆续发布了小型语言模型（SLM）Phi 系列。

其中，第一个模型为 13 亿参数规模的 Phi-1，官方博客称，Phi-1 在 SLM 中的 Python 编码方面表现最好，在 HumanEval 和 MBPP 基准测试上尤甚。第二个模型为 13 亿参数规模的 Phi-1.5，这个模型的重点为常识推理和语言理解能力。

现在微软发布的 Phi-2 能为研究人员探索机器可解释性、安全性改进或对各种任务的微调实验上提供帮助，目前，Phi-2 已经从 Azure AI Studio 模型目录中开放给研究人员。

96 块 A100 GPU 训练 14 天参数规模仅 27 亿

一些大模型的参数规模达到数千亿的量级，使得其涌现出众多新兴能力，那么，是否可以通过改变训练策略等方式让更小的参数实现这些能力？微软的小型语言模型（SLM）系列或许是这一问题的答案。

Phi-2 是一个基于 Transformer 架构的模型，具有下一个单词预测目标，在用于 NLP 和编码的合成数据集和 Web 数据集的混合上多次传递的 1.4T tokens 上进行训练。

Phi-2 在96 个 A100 GPU上训练了 14 天，作为一个基础模型，其没有通过人类反馈强化学习（RLHF）进行对齐，也没有进行指令微调。

尽管如此，与经过调整的现有开源模型 Llama 2-7B 相比，研究人员观察到在避免生成有攻击性、有害和内容有偏差方面 Phi-2 的表现也不差。

研究人员根据 ToxiGen 的 13 个人口统计数据计算的安全评分，他们选择 6541 个句子的子集，并根据困惑度和句子 “毒性” 进行 0 到 1 之间的评分。分数高就说明，模型产生有攻击性、有害句子的可能性较小。

▲Llama 2 与 Phi-2 在生成有攻击性、有害和内容有偏差方面性能比较（图源：微软官方博客）

微软使用 Phi-2 打破了传统语言模型缩放定律，其中有两个关键环节：

第一是训练数据的质量对模型的性能至关重要。微软的模型训练数据包含专门创建的合成数据集，用于教授模型常识推理，还包括科学、心理等领域的常识。

研究人员还挑选了一些网络数据进一步扩充训练语料库，并基于内容的价值和质量进行了数据过滤。

此外，从 13 亿参数规模的 Phi-1.5 开始，微软的研究人员实现了规模化的知识转移，将 Phi-1.5 的知识嵌入到 27 亿参数的 Phi-2 中。这种方法不仅加速了训练收敛，而且提高了 Phi-2 的基准分数。

▲Phi-2 和 Phi-1.5 比较（图源：微软官方博客）

基准测试击败 Llama 2、Mistral、Gemini Nano 2

微软总结了 Phi-2 在学术基准上与主流语言模型的性能表现对比。

其基准测试涵盖 Big Bench Hard（BBH 数据集）以及 PIQA、WinoGrande、ARC easy、Challenge、SIQA 的常识推理、HellaSwag、OpenBookQA、MMLU、SQuADv2 的语言理解数据集，GSM8k 数学数据集和 HumanEval、MBPP 的编码数据集等。

27 亿参数规模的 Phi-2，在 BBH、常识推理、语言理解、数学、编码各项基准测评上都超过了 70 亿、130 亿参数规模的 Mistral 和 Llama 2。

相比于参数规模差距在 25 倍的 700 亿参数 Llama 2，Phi-2 在编码、数学等多步推理任务上表现更好。

▲Llama 2、Mistral、Phi-2 性能比较（图源：微软官方博客）

此外，微软还比较了 Phi-2 与谷歌最近发布的 Gemini Nano 2，谷歌发布的模型参数规模为 32.5 亿，Phi-2 的性能表现部分优于 Gemini Nano 2。

▲Phi-2、Gemini Nano 2 性能比较（图源：微软官方博客）

考虑到一些公共基准测试的数据可能会泄漏到训练数据中，微软对第一个模型 Phi-1 进行了广泛的净化研究以排除这种可能性。

基于判断语言模型的最佳方法是在具体用例上对其进行测试的考量，研究人员使用了多个微软内部专有数据集和任务评估了 Phi-2，并再次将其与 Mistral 和 Llama 2 进行比较，其结果为，平均而言 Phi 2 优于 Mistral-7B，后者优于 70 亿、130 亿、730 亿参数规模的 Llama-2 模型。

除了基准测试外，研究人员还测试了社区内的一些常用提示，他们观察到的表现也与基准测试的结果预期一致。

其中，研究人员测试了用于评估谷歌 Gemini Ultra 模型在解决物理问题方面能力的问题。

与 Gemini 的测试类似，研究人员进一步向 Phi-2 询问学生的错误答案，来确认它是否能识别出错误所在。

不过，从输出结果来看，这并不完全是与 Gemini 报告中描述的 Gemini Ultra 输出的同类比较，Gemini 测评中学生的答案上传了手写文本的图像，Phi-2 的测试采用的是原始文本。

结语：大模型时代，小模型仍在崛起

Phi-2 的参数规模仅有 27 亿，但相比于参数规模更大的 70 亿、130 亿模型，其性能表现仍不逊色。微软专注于小模型市场的布局，也印证了大模型时代小模型的价值。

微软与 OpenAI 的紧密合作，使得 GPT 模型的表现在大模型市场一骑绝尘，再加上微软参数规模更小的 Phi 系列，能进一步抢占开源模型长尾市场。不过从目前来看，Phi 系列仅被允许用于研究目的。

从市场来看，越来越多的玩家开始探索在手机等移动设备上部署大模型，微软此举或许也会加速模型能力在端侧的应用。

本文作者：程茜，来源：智东西 (ID:zhidxcom)，原文标题：《手机能跑！微软小模型击败 Llama 2，96 块 A100 GPU 训练 14 天，参数规模仅 27 亿》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

手机能跑！微软小模型击败 Llama 2，96 块 A100 GPU 训练 14 天，参数规模仅 27 亿

96 块 A100 GPU 训练 14 天 参数规模仅 27 亿

基准测试击败 Llama 2、Mistral、Gemini Nano 2

结语：大模型时代，小模型仍在崛起

96 块 A100 GPU 训练 14 天参数规模仅 27 亿