博鳌亚洲论坛聚焦智能终端新赛道：以影像感知夯实人工智能迈向物理世界的基础

问题：大模型“更聪明”，为何仍难以真正改变现实体验？当前，人工智能迭代很快，模型文本、图像生成诸上不断突破，但现实生活中，很多能力仍停留在“会回答、会生成”，与“会观察、会理解、会行动”之间仍有明显差距。论坛现场的讨论认为，模型可以给出很多策略，却往往缺少对真实环境的直接感知和持续反馈，导致在复杂场景中难以形成稳定理解与可靠的决策闭环。换句话说，如果不能把物理世界有效转化为机器可理解的数字世界，再强的“云端大脑”也很难在现实中发挥应有价值。原因：从“算力与参数竞赛”走向“感知与交互能力竞赛” 业内普遍认为，过去一段时间的竞争主要集中在算力规模、模型参数、训练数据等“智力指标”。但面向物理世界的应用，更需要多模态输入、实时交互、空间理解以及安全可控等综合能力。胡柏山在发言中指出，未来人工智能水平提升，很大程度取决于感知能力的质量与效率，尤其是视觉信息在环境理解中的基础作用。影像不应只是记录工具，而应成为主动感知系统：通过光学系统、图像处理、空间计算等链路，把光影变化、深度关系、运动轨迹等信息结构化并可计算化，为智能决策提供更可靠的“输入端”。影响：影像与智能融合，应用价值从“炫技”转向“可用” 把影像能力提升到更核心的位置，意味着技术路线从单点突破走向体系化能力建设。其影响主要体现在三个层面：一是用户体验层面，影像与智能结合可在拍摄、搜索、识别、辅助阅读等场景提升效率与可达性。论坛分享的案例显示，视觉辅助能力能够帮助视障人群获取环境与人物信息，让“看不见的人”通过终端获得更完整的场景描述，说明了技术在真实生活中的价值。二是产业生态层面，手机作为高频终端，既承载传感器与算力，也连接内容与服务，是多模态交互的自然入口。围绕手机构建的端云协同体系，能以更低成本、更高覆盖率把模型能力嵌入日常场景，推动应用规模化。三是技术演进层面，感知能力增强将反向推动模型在空间理解、行为预测与任务执行等上走向更高可靠性，促使智能从“生成内容”深入走向“理解世界”。对策：以手机为“第一现场”，用高频场景验证能力、沉淀标准针对“落地难、体验碎、成本高”等现实问题，vivo在论坛上提出以手机作为智能落地的“第一现场”。此判断基于三点：其一，手机拥有数十亿级用户基础，触达能力强；其二，手机具备全天候、贴身化的交互优势，能够持续采集并反馈多模态信息；其三，手机覆盖办公、出行、影像、支付、娱乐等高频场景，便于以小步快跑的方式验证能力、迭代体验。在产品路径上，其思路是以“影像感知”为支点，逐步形成面向场景的智能体能力：先从影像等高频刚需切入，再扩展到办公、出行、游戏等典型场景，推动智能终端从“以应用为中心”转向“以任务为中心”的协同模式。同时，企业强调在端侧能力、隐私安全与可控性上同步投入，减少“能力看得见、体验用不上”的落差。前景：从手机延伸至多终端协同，机器人竞争或将回到“感知与大脑” 面向未来，多位业内人士认为，智能终端将从单设备竞争走向多设备协同。胡柏山提出“手机+MR头显+机器人”的枢纽型生态构想：手机作为覆盖最广的个人入口，MR头显提供更沉浸的空间交互，机器人承担物理行动与服务执行。值得关注的是，他对机器人产业提出更审慎的判断——机械结构的差异化可能逐步收敛，真正拉开体验差距的，将是对环境的感知、对任务的理解，以及对人机交互的把握。由此来看，影像与多模态感知能力不仅服务于手机升级，也可能成为未来机器人走向规模应用的关键底座。在更大范围内，随着我国数字经济发展，以及智能制造、智慧城市建设提速，能够在端侧实现可靠感知、低时延交互与安全可控的技术路线，有望在公共服务、适老化改造、无障碍应用等领域释放更大的带动效应。

当全球科技竞赛仍在聚焦参数比拼时，中国企业提出的“感知优先”路径，说明了对落地问题的清晰判断。从胶片相机到智能感知系统的演进表明，真正改变生活的往往不是耀眼的技术指标，而是把技术转化为可用体验、解决具体问题的能力。围绕“眼睛与大脑”协同进化的产业变革，正在推动人机关系进入新的阶段。