热点新闻

作者｜冬梅

Alexandr Wang 带队，Meta 新模型深夜来袭

沉寂了 9 个月后，这位让扎克伯克花了 143 亿美元挖来的天才少年 Alexandr Wang 终于交出了首个作品。

昨夜，Meta 正式发布新一代模型 Muse Spark，代号 Avocado，就是外界传了很久的“牛油果”。这是其内部 AI 组织 Meta Superintelligence Labs 在战略重组后的首个落地产品，也被视为这家科技巨头迈向“个人超级智能”路线图的起点。

Alexandr Wang 甚至激动地在 X 上连发九条推文介绍该模型。

与此前侧重语言能力的模型不同，Muse Spark 从一开始就被定义为“原生多模态推理模型”。它不仅能够处理文本，还能理解图像、环境信息，并在此基础上进行推理、调用工具，甚至与其他智能体协同完成复杂任务。

这种能力组合，意味着 Meta 正试图将 AI 从“对话工具”升级为“行动系统”。

Muse Spark 的发布，并非一次单点技术升级，而更像是 Meta AI 战略的一次整体转向。

过去一年，Meta 在 AI 领域经历了明显的路径调整。从开源导向的 Llama 系列，到如今强调“超级智能”的闭环系统能力，核心变化在于：不再单纯追求模型能力本身，而是强调“模型 + 工具 + 环境 + 多智能体”的系统级协同。

Muse Spark 正是这一思路的首个成型产品。

官方披露，为支撑这一方向，Meta 正在对整个技术栈进行重构，包括模型训练、数据管理以及底层基础设施。其中，名为 Hyperion 的新一代数据中心被明确点名，成为未来大规模模型扩展的关键支撑。

性能媲美 Gemini Pro 和 GPT 5.4

在能力层面，Muse Spark 的核心突破集中在“多模态推理”。

Meta 在官方博客中表示：“在过去的九个月里，我们彻底重建了人工智能堆栈，速度比以往任何开发周期都要快。这个初始模型的设计初衷就是体积小、速度快，但却足以应对科学、数学和健康领域的复杂问题。这是一个强大的基础，下一代模型已经在开发中。”

据介绍，Meta 还发布了“思考模式”，该模式可协调多个智能体并行推理。这使得 Muse Spark 能够与 Gemini Deep Think 和 GPT Pro 等前沿模型的极限推理模式相媲美。“思考模式”显著提升了 Muse Spark 在挑战性任务中的能力，在“人类最后的考试”任务中取得了 58% 的完成率，在“前沿科学研究”任务中取得了 38% 的完成率。

不同于传统视觉模型仅能识别图像内容，Muse Spark 被设计为能够将视觉信息与推理过程深度融合。例如，在 STEM 问题、物体识别与空间定位等场景中，它不仅能“看见”，还能“理解并推导”。

这种能力使其可以直接参与实际任务。例如：

通过摄像头分析家电状态，并用动态标注辅助用户排查故障
根据视觉输入生成互动内容，如小游戏或教学演示
在复杂环境中进行实时决策辅助

更关键的是，Muse Spark 支持“可视化思维链”（visual chain-of-thought），即将推理过程以可视形式呈现。这一设计不仅提升了可解释性，也为复杂任务的人机协作提供了新的交互范式。

Meta 此次特别强调了 Muse Spark 在健康领域的应用潜力。

据介绍，Meta 与超过 1000 名医生合作构建训练数据，使模型在健康推理上具备更高的专业性与可靠性。基于这一能力，Muse Spark 可以生成带交互界面的分析结果，例如：

食物营养结构的可视化拆解
运动过程中肌肉激活情况的动态展示
个性化饮食建议（结合用户健康状况）

这类能力的本质，是将 AI 从“信息提供者”升级为“决策辅助系统”。

在技术层面，Meta 把另一个重点放在“扩展效率”上。

官方披露，在过去九个月中，团队重构了预训练体系，包括模型架构、优化方法和数据管理流程。结果是：在达到相同性能的前提下，Muse Spark 所需的训练计算量（FLOPs）相比上一代模型（如 Llama 4 Maverick）下降了一个数量级以上。

这一结果具有明确的行业意义。

过去两年，大模型竞争很大程度上依赖“堆算力”。而 Meta 此次强调的，是通过工程优化提升“单位算力产出”。换句话说，其试图证明：性能增长不必完全依赖指数级资源投入。提示：你能把它转换成一个我可以在网上玩的数独游戏吗？

技术实现细节完整披露

在官方技术博客中，Meta 详细介绍了他们如何从三个维度研究和追踪 Muse Spark 的扩展特性：预训练、强化学习和测试时推理。

预训练。在预训练阶段，Muse Spark 获得其核心的多模态理解、推理和编码能力——这是强化学习和测试时计算的基础。

Meta 重构了预训练堆栈，改进了模型架构、优化和数据管理。这些改进共同提升了其利用每一单位计算资源所能达到的性能。为了严格评估新方案，Meta 研发团队对一系列小型模型拟合了一个扩展定律，并比较了达到特定性能水平所需的训练浮点运算次数（FLOPs）。结果显而易见：与之前的模型 Llama 4 Maverick 相比，他们用少一个数量级以上的计算资源就能达到相同的性能。这一改进也使得 Muse Spark 比目前可供比较的领先基础模型效率更高。

强化学习。经过预训练后，强化学习 (RL) 利用计算能力可扩展地提升模型性能。尽管大规模强化学习历来容易出现不稳定，但 Meta 的新技术栈能够带来平稳、可预测的性能提升。

下图展示了扩展 Muse Spark 的强化学习 (RL) 计算能力（以步数衡量）所带来的益处。左图显示，在训练数据上，pass@1 和 pass@16（16 次尝试中至少成功一次）的数值呈对数线性增长。这表明强化学习在不影响推理多样性的前提下提高了模型的可靠性。右图显示，在预留的评估集上准确率的增长表明，强化学习带来的收益具有可预测的泛化能力：Muse Spark 在训练中未遇到的任务上也表现良好。

测试时推理。强化学习训练模型在回答问题前进行“思考”——这一过程被称为测试时推理。要让数十亿用户拥有这种能力，就需要高效利用推理令牌。为此，研发团队依靠两个关键手段：一是思考时间惩罚，用于优化 token 使用；二是多智能体编排，用于在不降低响应速度的前提下提升性能。

为了在每个 token 上实现最高的智能水平，强化学习训练在增加思考时间的前提下，最大化正确率。在诸如 AIME 等部分评估任务中，这会导致阶段性转变。在初始阶段，模型通过延长思考时间来提升性能；之后，思考时间的惩罚会促使模型进行思维压缩——Muse Spark 会压缩其推理过程，从而使用更少的 token 解决问题。压缩之后，模型会再次扩展其解决方案，以获得更强的性能。

为了在不显著增加延迟的情况下，将更多时间用于测试时的推理，可以扩展协作解决难题的并行智能体的数量。下图展示了这种方法的优势。标准的测试时扩展方法会使单个智能体思考更长时间，而采用多智能体思维的 Muse Spark 扩展方法则可以在保持相当延迟的情况下实现更高的性能。

在安全层面，Meta 表示已在部署前对 Muse Spark 进行系统性评估，依据其更新后的“高级人工智能扩展框架”（Advanced AI Scaling Framework），对威胁模型、评估流程及上线标准进行了统一规范。

评估重点覆盖前沿风险（如生物与化学领域）、行为一致性以及对抗鲁棒性，并在安全措施实施前后进行对比测试。结果显示，Muse Spark 在涉及高风险内容时表现出明显的拒绝倾向，这主要得益于数据过滤、后训练安全对齐及系统级防护的多层机制。

Meta 同时指出，在网络攻击或“失控”场景中，当前模型尚不具备执行复杂威胁任务的自主能力。整体来看，Muse Spark 在已评估的风险范围内处于可控水平，更多细节将于后续《安全与准备报告》中披露。

网友：模型强不强不知道，

但闭源让人失望

Muse Spark 的发布在技术社区引发了巨大反响，Stability AI 创始人 Emad Mostaque 及 Meta 前首席科学家 Yann LeCun、Coinbase 联创兼 CEO Brian Armstrong 等大佬纷纷在 x 上向 Alexandr Wang 和 Meta 表示祝贺。

另一方面，普通网友和部分开发者则聚焦于实际应用层面相关问题展开了争论。

有网友表示，该模型在排行榜上的表现令人印象深刻，但好奇 Meta 是否也会在智能体编码领域展开竞争？

还有网友表示，新模型的多代理编排部分很有意思，Muse Spark 能原生处理这个问题，是一个真正的突破。他写道：“我一直在单体仓库的不同模块上运行并行的 Claude Code 代理，协调开销非常大。如果 Muse Spark 能原生处理这个问题，对于大型代码库的复杂重构来说，这将是一个真正的突破。”

有网友认为，Meta 能在短时间内构建出性能如此强大的模型，为以后的基础设施建设打下了坚实基础。他评论：

“从零开始重建了整个堆栈，计算能力比 Maverick 低 10 倍，性能却与之匹敌。这 9 个月的基础设施建设工作构成了制胜的护城河。”

还有网友将 Meta 的新模型与 Opus 4.5 进行了对比，认为“牛油果”表现逊色于 Opus 4.5。

Meta 143亿挖角后的首个作品：Alexandr Wang 推出闭源模型，杨立坤点赞

相关推荐