面壁智能开源MiniCPM-o 4.5推动全模态实时交互升级与国产芯片适配提速

一、问题背景：交互模式制约大模型实用化进程当前，大型语言与多模态模型技术上持续迭代——但在落地应用中——多数产品仍沿用“用户输入—模型响应”的回合式交互方式，感知与响应彼此分离，难以实现更自然顺畅的人机对话。此外，模型参数规模不断扩大带来的算力消耗和显存占用，也限制了其在终端设备与边缘场景的部署。如何在不牺牲能力上限的前提下，做出更轻量、更自然、更可用的交互体验，成为大模型研发亟需解决的关键问题。二、技术突破：全双工架构开创“即时自由对话”新范式针对上述挑战，面壁智能发布的MiniCPM-o 4.5在架构设计上进行了系统性调整。模型采用端到端全模态架构，融合全双工多模态实时流机制、主动交互机制与可配置语音建模，使其具备“边看、边听、主动说”的同步感知与响应能力，从而突破传统回合式交互的限制。在此基础上，MiniCPM-o 4.5带来“感知不中断、对话不僵硬、提醒无需追问”的体验，被认为是首个具备“即时自由对话”能力的全模态大模型。这意味着模型不再只是等待指令再作答，而是在持续感知环境信息的同时，主动参与对话推进，更接近人类的交流方式。三、能效优势：以9B参数实现旗舰级全模态表现 MiniCPM-o 4.5延续面壁智能“小钢炮”系列的高密度设计，以9B参数规模在全模态理解、视觉解析、文档处理、语音理解与生成等达到同类模型领先水平。同时，模型通过优化推理路径，在显存占用与响应速度等关键指标上深入改善，在保持性能的同时降低推理开销，提升能效表现。该点对大模型在资源受限场景的落地尤为重要。相比动辄数百亿参数的超大模型，MiniCPM-o 4.5展示了兼顾性能与成本的轻量化路径，为行业提供了更可实施的选择。四、语音能力：声音克隆与拟人表达实现质的跃升在语音生成上，MiniCPM-o 4.5通过新的模型设计与训练方法，音色自然度、拟人程度与表达稳定性上实现提升。模型可在输出时自动匹配更合适的语气与音色，缓解长语音合成中常见的音色不一致、语气生硬、效果波动等问题。同时，该模型支持声音克隆，仅需数秒声音样本即可生成定制音色，并可基于克隆音色进行角色扮演式语音对话。该能力在智能客服、虚拟助手、内容创作等场景中具备较强的应用与商业化空间。五、生态布局：多芯片适配强化国产算力协同在硬件适配上，MiniCPM-o 4.5依托统一系统软件栈FlagOS的跨平台能力，已在天数智芯、华为昇腾、平头哥、海光、沐曦等六款国产主流芯片上完成端到端推理优化，实现与国产算力生态的协同适配。这一布局指向明确：推动先进模型与国产芯片更好协同，有助于降低对境外算力基础设施的依赖，也为构建更自主可控的产业链提供支撑。目前，MiniCPM-o 4.5已在GitHub、Hugging Face等开源平台发布，面向全球开发者开放使用。

此次技术突破显示我国在多模态人工智能领域的研发能力正加速提升；在确保安全可控的基础上，持续推进核心算法创新与生态协同，将深入支撑数字经济发展。随着对应的基础技术不断演进，人机交互方式或将随之改变，其应用与社会影响值得持续关注。