声网这次发布了一个叫VoiceAgentEval的AI外呼智能体评测基准。这个平台是跟美团、xbench一起弄的,算是给AI外呼场景整了个实用的评测标准,把以前评测缺失的问题给解决了。以前的一些学术榜单像MMLU、C-Eval,在判断AI能不能好好沟通这方面确实不太够用了。 所以这一次,他们就把声网的对话AI技术、美团在外呼业务里的经验和xbench在基准评测这块的能力凑在了一块儿。搭建了一个包含基准测试、用户模拟器还有交互质量评估三个维度的综合框架。 先说这三个维度怎么来的。语料库覆盖了客服、销售、招聘、金融这些领域,总共凑了30个子场景。每个子场景里都弄了详细的评估方案。然后是用户模拟器,美团搞了150种不同性格的虚拟人,这样就能在可控的环境下大量测试模型的表现了。最后是评估方法,文本上有TFC和GIC两套体系,语音上定了15个指标,给ASR识别准确率、音频质量这些都量化了。 看看这次的评测结果吧。排在前面的是Doubao-1.5-32k、GPT-4.1和Claude-4-Sonnet。Doubao-1.5-32k和GPT-4.1在语音这块表现不错。这就给大家选模型的时候提供了很实际的参考。 xbench官网已经上线这个基准了,声网那边也会在自己的平台上放数据。这事儿不光是让从业者有了新的评判标准,还把AI模型评测从理想化的学术测法带回到了真实的业务场景里来。 作为行业的先行者,声网之前已经推出过电话外呼功能了。未来他们会继续在这块深耕,把技术和评测体系做得更完善。想了解更多消息的话可以去应用市场下载“极目新闻”客户端看看。