作者|冬梅
1
Alexandr Wang 带队,Meta 新模型深夜来袭
沉寂了 9 个月后,这位让扎克伯克花了 143 亿美元挖来的天才少年 Alexandr Wang 终于交出了首个作品。
昨夜,Meta 正式发布新一代模型 Muse Spark,代号 Avocado,就是外界传了很久的“牛油果”。这是其内部 AI 组织 Meta Superintelligence Labs 在战略重组后的首个落地产品,也被视为这家科技巨头迈向“个人超级智能”路线图的起点。
Alexandr Wang 甚至激动地在 X 上连发九条推文介绍该模型。
与此前侧重语言能力的模型不同,Muse Spark 从一开始就被定义为“原生多模态推理模型”。它不仅能够处理文本,还能理解图像、环境信息,并在此基础上进行推理、调用工具,甚至与其他智能体协同完成复杂任务。
这种能力组合,意味着 Meta 正试图将 AI 从“对话工具”升级为“行动系统”。
Muse Spark 的发布,并非一次单点技术升级,而更像是 Meta AI 战略的一次整体转向。
过去一年,Meta 在 AI 领域经历了明显的路径调整。从开源导向的 Llama 系列,到如今强调“超级智能”的闭环系统能力,核心变化在于:不再单纯追求模型能力本身,而是强调“模型 + 工具 + 环境 + 多智能体”的系统级协同。
Muse Spark 正是这一思路的首个成型产品。
官方披露,为支撑这一方向,Meta 正在对整个技术栈进行重构,包括模型训练、数据管理以及底层基础设施。其中,名为 Hyperion 的新一代数据中心被明确点名,成为未来大规模模型扩展的关键支撑。
2
性能媲美 Gemini Pro 和 GPT 5.4
在能力层面,Muse Spark 的核心突破集中在“多模态推理”。
Meta 在官方博客中表示:“在过去的九个月里,我们彻底重建了人工智能堆栈,速度比以往任何开发周期都要快。这个初始模型的设计初衷就是体积小、速度快,但却足以应对科学、数学和健康领域的复杂问题。这是一个强大的基础,下一代模型已经在开发中。”
据介绍,Meta 还发布了“思考模式”,该模式可协调多个智能体并行推理。这使得 Muse Spark 能够与 Gemini Deep Think 和 GPT Pro 等前沿模型的极限推理模式相媲美。“思考模式”显著提升了 Muse Spark 在挑战性任务中的能力,在“人类最后的考试”任务中取得了 58% 的完成率,在“前沿科学研究”任务中取得了 38% 的完成率。
不同于传统视觉模型仅能识别图像内容,Muse Spark 被设计为能够将视觉信息与推理过程深度融合。例如,在 STEM 问题、物体识别与空间定位等场景中,它不仅能“看见”,还能“理解并推导”。
这种能力使其可以直接参与实际任务。例如:
通过摄像头分析家电状态,并用动态标注辅助用户排查故障
根据视觉输入生成互动内容,如小游戏或教学演示
在复杂环境中进行实时决策辅助
更关键的是,Muse Spark 支持“可视化思维链”(visual chain-of-thought),即将推理过程以可视形式呈现。这一设计不仅提升了可解释性,也为复杂任务的人机协作提供了新的交互范式。
Meta 此次特别强调了 Muse Spark 在健康领域的应用潜力。
据介绍,Meta 与超过 1000 名医生合作构建训练数据,使模型在健康推理上具备更高的专业性与可靠性。基于这一能力,Muse Spark 可以生成带交互界面的分析结果,例如:
食物营养结构的可视化拆解
运动过程中肌肉激活情况的动态展示
个性化饮食建议(结合用户健康状况)
这类能力的本质,是将 AI 从“信息提供者”升级为“决策辅助系统”。
在技术层面,Meta 把另一个重点放在“扩展效率”上。
官方披露,在过去九个月中,团队重构了预训练体系,包括模型架构、优化方法和数据管理流程。结果是:在达到相同性能的前提下,Muse Spark 所需的训练计算量(FLOPs)相比上一代模型(如 Llama 4 Maverick)下降了一个数量级以上。
这一结果具有明确的行业意义。
过去两年,大模型竞争很大程度上依赖“堆算力”。而 Meta 此次强调的,是通过工程优化提升“单位算力产出”。换句话说,其试图证明:性 能增长不必完全依赖指数级资源投入。提示:你能把它转换成一个我可以在网上玩的数独游戏吗?
技术实现细节完整披露
在官方技术博客中,Meta 详细介绍了他们如何从三个维度研究和追踪 Muse Spark 的扩展特性:预训练、强化学习和测试时推理。
预训练。在预训练阶段,Muse Spark 获得其核心的多模态理解、推理和编码能力——这是强化学习和测试时计算的基础。
Meta 重构了预训练堆栈,改进了模型架构、优化和数据管理。这些改进共同提升了其利用每一单位计算资源所能达到的性能。为了严格评估新方案,Meta 研发团队对一系列小型模型拟合了一个扩展定律,并比较了达到特定性能水平所需的训练浮点运算次数(FLOPs)。结果显而易见:与之前的模型 Llama 4 Maverick 相比,他们用少一个数量级以上的计算资源就能达到相同的性能。这一改进也使得 Muse Spark 比目前可供比较的领先基础模型效率更高。
强化学习。经过预训练后,强化学习 (RL) 利用计算能力可扩展地提升模型性能。尽管大规模强化学习历来容易出现不稳定,但 Meta 的新技术栈能够带来平稳、可预测的性能提升。
下图展示了扩展 Muse Spark 的强化学习 (RL) 计算能力(以步数衡量)所带来的益处。左图显示,在训练数据上,pass@1 和 pass@16(16 次尝试中至少成功一次)的数值呈对数线性增长。这表明强化学习在不影响推理多样性的前提下提高了模型的可靠性。右图显示,在预留的评估集上准确率的增长表明,强化学习带来的收益具有可预测的泛化能力:Muse Spark 在训练中未遇到的任务上也表现良好。
测试时推理。强化学习训练模型在回答问题前进行“思考”——这一过程被称为测试时推理。要让数十亿用户拥有这种能力,就需要高效利用推理令牌。为此,研发团队依靠两个关键手段:一是思考时间惩罚,用于优化 token 使用;二是多智能体编排,用于在不降低响应速度的前提下提升性能。
为了在每个 token 上实现最高的智能水平,强化学习训练在增加思考时间的前提下,最大化正确率。在诸如 AIME 等部分评估任务中,这会导致阶段性转变。在初始阶段,模型通过延长思考时间来提升性能;之后,思考时间的惩罚会促使模型进行思维压缩——Muse Spark 会压缩其推理过程,从而使用更少的 token 解决问题。压缩之后,模型会再次扩展其解决方案,以获得更强的性能。
为了在不显著增加延迟的情况下,将更多时间用于测试时的推理,可以扩展协作解决难题的并行智能体的数量。下图展示了这种方法的优势。标准的测试时扩展方法会使单个智能体思考更长时间,而采用多智能体思维的 Muse Spark 扩展方法则可以在保持相当延迟的情况下实现更高的性能。
在安全层面,Meta 表示已在部署前对 Muse Spark 进行系统性评估,依据其更新后的“高级人工智能扩展框架”(Advanced AI Scaling Framework),对威胁模型、评估流程及上线标准进行了统一规范。
评估重点覆盖前沿风险(如生物与化学领域)、行为一致性以及对抗鲁棒性,并在安全措施实施前后进行对比测试。结果显示,Muse Spark 在涉及高风险内容时表现出明显的拒绝倾向,这主要得益于数据过滤、后训练安全对齐及系统级防护的多层机制。
Meta 同时指出,在网络攻击或“失控”场景中,当前模型尚不具备执行复杂威胁任务的自主能力。整体来看,Muse Spark 在已评估的风险范围内处于可控水平,更多细节将于后续《安全与准备报告》中披露。
网友:模型强不强不知道,
但闭源让人失望
Muse Spark 的发布在技术社区引发了巨大反响 ,Stability AI 创始人 Emad Mostaque 及 Meta 前首席科学家 Yann LeCun、Coinbase 联创兼 CEO Brian Armstrong 等大佬纷纷在 x 上向 Alexandr Wang 和 Meta 表示祝贺。
另一方面,普通网友和部分开发者则聚焦于实际应用层面相关问题展开了争论。
有网友表示,该模型在排行榜上的表现令人印象深刻,但好奇 Meta 是否也会在智能体编码领域展开竞争?
还有网友表示,新模型的多代理编排部分很有意思,Muse Spark 能原生处理这个问题,是一个真正的突破。他写道:“我一直在单体仓库的不同模块上运行并行的 Claude Code 代理,协调开销非常大。如果 Muse Spark 能原生处理这个问题,对于大型代码库的复杂重构来说,这将是一个真正的突破。”
有网友认为,Meta 能在短时间内构建出性能如此强大的模型,为以后的基础设施建设打下了坚实基础。他评论:
“从零开始重建了整个堆栈,计算能力比 Maverick 低 10 倍,性能却与之匹敌。这 9 个月的基础设施建设工作构成了制胜的护城河。”