Meta大模型被曝训练作弊，针对性优化，内部员工辞职抗议，官方回应-泰伯网

Meta大模型被曝训练作弊，针对性优化，内部员工辞职抗议，官方回应

IT之家、新智元 2025-04-08 09:53

尽管团队反复努力训练，Llama 4的内部模型性能始终无法达到开源SOTA（State-of-the-Art，顶尖水平）基准，差距明显。

4月5日，Meta公司发布了大型语言模型Llama的最新版本Llama 4 Scout与Llama 4 Maverick，两者均以开源形式发布。此外，Meta还预告了Llama 4 Behemoth，称其为“全球最聪明的语言模型之一，将作为未来模型训练的教师模型”。

没想到，随后就被曝出模型训练测试集作弊，内部员工直接辞职，引发争议。争议的导火索源于海外留学求职交流论坛“一亩三分地”的一篇帖子，发帖人自称是参与Llama 4训练的内部员工，并表示已因此辞职。该员工透露，尽管团队反复努力训练，Llama 4的内部模型性能始终无法达到开源SOTA（State-of-the-Art，顶尖水平）基准，差距明显。

为达成目标，公司领导层提出在训练后期将各种基准测试的“测试集”数据混入训练或微调数据中，以此在各项指标上达成目标，交出一份“好看”的成绩单。这位内部员工表示，自己无法接受这种做法，甚至辞职信中明确要求不要在Llama 4技术报告中挂名。另一方面，高层给全员下了「死令」——4月底是Llama 4交付最后期限。在一系列高压之下，已有高管提出了辞职。

据悉，Meta在其公告中明确提到，参与LM Arena测试的Maverick是一个「实验性聊天版本」。而根据官方Llama网站上公布的信息，Meta在LM Arena的测试中所使用的实际上是「针对对话性优化的Llama 4 Maverick」。这表明，该版本经过了专门的优化调整，以适应LM Arena的测试环境和评分标准。

针对舆论，4月8日凌晨1点半，Meta生成式AI领导者Ahmad Al-Dahle在社交平台发布了一篇长文，对前天刚开源的Llama 4质疑进行了官方回应。Ahmad表示，Llama 4一开发完就发布了，所以，不同服务中模型质量难免会有一些差异。Meta很快会修复这些漏洞提升性能。同时否认在测试集上进行了预训练。

喜欢您正在阅读的内容吗？欢迎免费订阅泰伯每周精选电邮。立即订阅

声明：泰伯网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，文章内容仅供参考。