在人工智能竞争这么激烈的时候,有没有开源的原生语音模型能不能把咱们国家的科技实力体现出来,这个标准可是关键。最近阶跃星辰公司发布的Step-Audio-R1.1模型,直接把国际权威评测榜单的第一名给拿下了。Artificial Analysis Speech Reasoning这个榜单可是大家公认的最权威的第三方基准之一,结果一出来,全球都在关注。 这个模型是Step-Audio-R1的升级版本。它跟之前的语音识别不同,主要就是让机器直接处理原始音频信号,不需要先转文字,“听懂”之后再去“思考”,这就能更像人类那样去理解音频。这次成绩公布了96.4%的准确率,超过了Grok、Gemini还有GPT-Realtime这些大厂的模型。不光正确率高,这次评测还特别看重实时响应速度,“首包延迟”也很重要。 专家说这个模型厉害主要是因为架构设计得好。它把深度推理和实时响应给融合了,还加了个能在音频里扩展的“思维链”技术。这样机器就能像人一样边听边想边说,说话特别流畅。而且这个模型已经在HuggingFace开源了,企业还说2月份要上线完整的编程接口,现在的聊天模式也能用R1.1的核心功能体验了。 中国这次能夺冠,说明咱们在基础模型这块坚持自主创新,也愿意跟全球合作。这不仅是科技实力的展示,也让大家一起推动智能语音技术的发展。咱们国家现在在人工智能这块不光是跟着走,还在某些领域开始引领了。