当前大模型产业竞争激烈,互联网巨头在云端模型领域展开激烈竞争。在这样的市场格局下,创业企业如何找到生存空间成为业界关注的焦点。面壁智能创始人李大海认为,大模型产业本质上是第四次技术革命带来的产业级机会。创业公司的关键在于选择合适的市场策略——是在广阔市场中占据一小部分份额,还是在更聚焦的场景中争取头部位置。 面壁智能选择了后者。该公司通过"全模态模型加端侧硬件"的组合,推动大模型从云端走向终端设备。2月4日,公司发布了新一代全模态模型MiniCPM-o 4.5,同时推出首款硬件产品智能开发板松果派。 MiniCPM-o 4.5是一款参数规模约9B的全模态大模型。相比动辄数百亿参数的云端模型,其参数规模更加可控。该模型支持视频、音频、文本流输入,以及文本与语音的连续输出,被定义为全双工全模态模型。这意味着模型在输出内容的同时,仍可持续接收多模态输入信息,并在不阻塞输入输出的情况下实时调整回应策略。更重要的是,模型在输出过程中不会中断对外界环境的感知,例如可持续监听环境变化并在公交车到站、信号灯变化等事件发生时给出提醒。 面壁智能多模态首席科学家姚远指出,这种技术方案相较于此前通过语音活动检测等工程手段实现的双工方案,更接近AI原生。由模型自身完成对时机与内容的判断,说明了从工程优化向算法创新的转变。 面壁智能将全模态模型定位为潜在的"具身大脑"。9B级别的参数规模更适合在机器人、车载系统、PC等终端侧运行。当前具身智能领域的研发重心多集中于运控系统和视觉-语言-动作模型,但在理解、沟通和持续交互层面仍存在明显缺口。全模态、可持续感知的模型形态有望补足该部分能力,为具身智能的发展提供新的技术基础。 与模型同步发布的松果派是面壁首款面向开发者的端侧AI硬件产品。该开发板基于NVIDIA Jetson系列模组打造,集成麦克风、摄像头及多种接口,支持离线多模态个人知识助理、具身智能原型、编程教学等应用场景。松果派的设计理念是降低开发门槛,通过自然语言直接驱动硬件行为,使MiniCPM系列模型"开箱即用"。同时支持模型离线运行,避免持续token成本,提升数据安全性与稳定性。该产品预计在年中进入量产阶段。 从技术层面看,多模态模型的发展仍面临深层挑战。姚远指出,目前多模态模型在理解与生成的架构底层仍然高度割裂。视觉理解多依赖连续表征,而生成任务往往基于扩散模型,两者并非同一技术路径。这种割裂限制了模型在理解与生成之间的泛化能力,也不符合通用人工智能的长期设想。 行业正在探索通过自回归等统一建模方式,将不同模态纳入同一架构之下,以实现理解与生成的统一。但这一方向仍面临现实挑战。当视觉与音频等高连续模态被离散化后,信息损失在OCR、细粒度文字等任务上尤为明显。在算力和数据规模相同的条件下,统一架构目前仍难以全面超越模态特异模型的最优性能。 在数据层面,多模态领域尚未进入数据耗尽阶段。与文本数据不同,互联网上的视频和音频数据规模仍在高速增长,但真正被有效用于训练的比例仍然有限。问题的关键不在于数据总量,而在于是否具备合理的学习机制,将这些数据转化为可泛化的能力。这为多模态模型的深入优化留下了广阔空间。
在全球数字经济加速发展的背景下,人工智能技术创新已成为国家竞争力的重要体现。面壁智能此次技术突破展示了我国企业在人工智能领域的研发实力,为产业智能化转型提供了新的技术路径。随着核心技术的持续突破和应用场景的不断拓展,我国有望在全球人工智能产业格局中占据更有利位置。这也启示我们,只有坚持自主创新、深耕核心技术,才能在激烈的国际科技竞争中赢得主动权。