博鳌亚洲论坛聚焦智能终端新赛道:以影像感知夯实人工智能迈向物理世界的基础

问题:大模型“更聪明”,为何仍难以真正改变现实体验? 当前,人工智能迭代很快,模型文本、图像生成诸上不断突破,但现实生活中,很多能力仍停留在“会回答、会生成”,与“会观察、会理解、会行动”之间仍有明显差距。论坛现场的讨论认为,模型可以给出很多策略,却往往缺少对真实环境的直接感知和持续反馈,导致在复杂场景中难以形成稳定理解与可靠的决策闭环。换句话说,如果不能把物理世界有效转化为机器可理解的数字世界,再强的“云端大脑”也很难在现实中发挥应有价值。 原因:从“算力与参数竞赛”走向“感知与交互能力竞赛” 业内普遍认为,过去一段时间的竞争主要集中在算力规模、模型参数、训练数据等“智力指标”。但面向物理世界的应用,更需要多模态输入、实时交互、空间理解以及安全可控等综合能力。胡柏山在发言中指出,未来人工智能水平提升,很大程度取决于感知能力的质量与效率,尤其是视觉信息在环境理解中的基础作用。影像不应只是记录工具,而应成为主动感知系统:通过光学系统、图像处理、空间计算等链路,把光影变化、深度关系、运动轨迹等信息结构化并可计算化,为智能决策提供更可靠的“输入端”。 影响:影像与智能融合,应用价值从“炫技”转向“可用” 把影像能力提升到更核心的位置,意味着技术路线从单点突破走向体系化能力建设。其影响主要体现在三个层面: 一是用户体验层面,影像与智能结合可在拍摄、搜索、识别、辅助阅读等场景提升效率与可达性。论坛分享的案例显示,视觉辅助能力能够帮助视障人群获取环境与人物信息,让“看不见的人”通过终端获得更完整的场景描述,说明了技术在真实生活中的价值。 二是产业生态层面,手机作为高频终端,既承载传感器与算力,也连接内容与服务,是多模态交互的自然入口。围绕手机构建的端云协同体系,能以更低成本、更高覆盖率把模型能力嵌入日常场景,推动应用规模化。 三是技术演进层面,感知能力增强将反向推动模型在空间理解、行为预测与任务执行等上走向更高可靠性,促使智能从“生成内容”深入走向“理解世界”。 对策:以手机为“第一现场”,用高频场景验证能力、沉淀标准 针对“落地难、体验碎、成本高”等现实问题,vivo在论坛上提出以手机作为智能落地的“第一现场”。此判断基于三点:其一,手机拥有数十亿级用户基础,触达能力强;其二,手机具备全天候、贴身化的交互优势,能够持续采集并反馈多模态信息;其三,手机覆盖办公、出行、影像、支付、娱乐等高频场景,便于以小步快跑的方式验证能力、迭代体验。 在产品路径上,其思路是以“影像感知”为支点,逐步形成面向场景的智能体能力:先从影像等高频刚需切入,再扩展到办公、出行、游戏等典型场景,推动智能终端从“以应用为中心”转向“以任务为中心”的协同模式。同时,企业强调在端侧能力、隐私安全与可控性上同步投入,减少“能力看得见、体验用不上”的落差。 前景:从手机延伸至多终端协同,机器人竞争或将回到“感知与大脑” 面向未来,多位业内人士认为,智能终端将从单设备竞争走向多设备协同。胡柏山提出“手机+MR头显+机器人”的枢纽型生态构想:手机作为覆盖最广的个人入口,MR头显提供更沉浸的空间交互,机器人承担物理行动与服务执行。值得关注的是,他对机器人产业提出更审慎的判断——机械结构的差异化可能逐步收敛,真正拉开体验差距的,将是对环境的感知、对任务的理解,以及对人机交互的把握。由此来看,影像与多模态感知能力不仅服务于手机升级,也可能成为未来机器人走向规模应用的关键底座。 在更大范围内,随着我国数字经济发展,以及智能制造、智慧城市建设提速,能够在端侧实现可靠感知、低时延交互与安全可控的技术路线,有望在公共服务、适老化改造、无障碍应用等领域释放更大的带动效应。

当全球科技竞赛仍在聚焦参数比拼时,中国企业提出的“感知优先”路径,说明了对落地问题的清晰判断。从胶片相机到智能感知系统的演进表明,真正改变生活的往往不是耀眼的技术指标,而是把技术转化为可用体验、解决具体问题的能力。围绕“眼睛与大脑”协同进化的产业变革,正在推动人机关系进入新的阶段。