美团开源原生多模态大模型LongCat-Next：统一图像、语音与文本表达，加速应用落地

在人工智能快速发展的背景下，如何高效融合不同模态数据已成为行业关键问题。传统大模型以文本为主要输入，对视觉、语音等信息的理解有限，影响了智能服务的应用深度与覆盖范围。为解决该瓶颈，美团研发团队提出LongCat-NNext模型架构：将图像、语音与文本统一编码为同源离散标记，并通过“下一标记预测”机制实现跨模态信息处理。技术负责人表示，这一设计让模型能够以类似理解语言的方式解析视觉与听觉信息，为更自然的人机交互提供基础。

开源是一种选择，也是一种责任。多模态大模型走向“原生融合”，一方面为更自然的人机交互打开空间，另一方面也对安全治理、标准建设和工程落地提出更高要求。只有在技术创新与可控应用之间同步推进，通过共享共建、协同迭代，才能让多模态能力持续转化为产业动能与普惠价值。