4月5日,Meta公司发布了大型语言模型Llama的最新版本Llama 4 Scout与Llama 4 Maverick,两者均以开源形式发布。此外,Meta还预告了Llama 4 Behemoth,称其为“全球最聪明的语言模型之一,将作为未来模型训练的教师模型”。
没想到,随后就被曝出模型训练测试集作弊,内部员工直接辞职,引发争议。争议的导火索源于海外留学求职交流论坛“一亩三分地”的一篇帖子,发帖人自称是参与Llama 4训练的内部员工,并表示已因此辞职。该员工透露,尽管团队反复努力训练,Llama 4的内部模型性能始终无法达到开源SOTA(State-of-the-Art,顶尖水平)基准,差距明显。
为达成目标,公司领导层提出在训练后期将各种基准测试的“测试集”数据混入训练或微调数据中,以此在各项指标上达成目标,交出一份“好看”的成绩单。这位内部员工表示,自己无法接受这种做法,甚至辞职信中明确要求不要在Llama 4技术报告中挂名。另一方面,高层给全员下了「死令」——4月底是Llama 4交付最后期限。在一系列高压之下,已有高管提出了辞职。
据悉,Meta在其公告中明确提到,参与LM Arena测试的Maverick是一个「实验性聊天版本」。而根据官方Llama网站上公布的信息,Meta在LM Arena的测试中所使用的实际上是「针对对话性优化的Llama 4 Maverick」。这表明,该版本经过了专门的优化调整,以适应LM Arena的测试环境和评分标准。
针对舆论,4月8日凌晨1点半,Meta生成式AI领导者Ahmad Al-Dahle在社交平台发布了一篇长文,对前天刚开源的Llama 4质疑进行了官方回应。Ahmad表示,Llama 4一开发完就发布了,所以,不同服务中模型质量难免会有一些差异。Meta很快会修复这些漏洞提升性能。同时否认在测试集上进行了预训练。