我国多模态视频生成技术取得重大突破电信自主研发模型跻身国际前列

生成式技术快速演进的背景下，视频生成能力被视为多模态大模型走向产业应用的重要关口；与文本、图像相比，视频同时包含时间维度与复杂运动规律，既要“像”，更要“稳”。长期以来，业内在图生视频任务中普遍面临画面细节随时间漂移、人物动作断裂、背景元素突变等问题，导致内容可用性与一致性不足，也限制了其在影视制作、广告营销、教育培训等场景的规模化应用。从此次榜单表现看，TeleVideo 2.0的提升指向一个核心事实：高质量视频生成不是靠单点突破完成，而是数据、架构、训练与算力协同优化的系统工程。评测机构在“图生视频”榜单中以人类偏好评估为主，重点考察生成内容与输入图像的一致性、运动自然度以及时间稳定性等维度。这些指标对应的，正是当前视频生成模型最关键的能力——能否在多帧之间保持逻辑连贯、细节稳定、运动可信。原因层面，TeleAI科研团队强调“数据决定模型能力上限”，并构建“筛选—清洗—均衡—适配”的数据流水线。业内普遍认为，视频生成对数据质量的敏感度高于图像任务：一旦数据分布失衡或噪声较多，模型更易在长序列生成中累积误差，进而出现画面崩坏或风格漂移。更严格的数据治理与适配策略，有助于提升模型在复杂场景、不同风格与多主体交互下的鲁棒性，为一致性与稳定性打牢基础。在模型方法上，TeleVideo 2.0提出“全局规划+局部精修”的架构思路，先建立跨时间的整体运动与叙事规划，再对关键区域、人物表情与背景细节进行局部强化，以减少常见的“前后不一”“动作不连贯”等现象。与之配套的统一视频后训练框架，则将以往更多依赖经验的调参过程，转向更可诊断、可解释、可持续迭代的工程化路径，并为长时长、高分辨率视频生成引入强化学习对齐方向。业内观察到，后训练与对齐机制正成为大模型“从能用到好用”的关键环节，尤其面向真实生产场景时，稳定输出、可控风格与可预测质量更为重要。影响层面，此进展发出多重信号：其一，国产大模型在多模态方向的积累正从“能力展示”转向“工程落地”；其二，视频生成领域的竞争焦点正在从单纯参数规模转向数据治理、训练体系与算力框架的综合效率；其三，围绕视频内容生产的产业链有望在工具化、平台化推动下迎来新一轮效率提升。对内容行业而言，稳定且一致的视频生成能力意味着更低的试错成本、更短的制作周期与更灵活的创意表达；对企业数字化而言，则可能在产品展示、培训演示、虚拟客服与营销传播等场景形成可复制的生产力工具。对策层面，推动此类能力更好服务产业，还需在“可用、可控、可信”上持续补齐短板。一上，应继续强化数据合规与内容安全治理，形成覆盖数据来源、标注策略、训练过程与输出审核的闭环机制；另一方面，要建立更贴近产业需求的评测体系与质量标准，使模型效果不仅“榜单好看”，也能真实业务中稳定复现；同时，还需加强与行业场景的深度融合，通过开放平台与开发者生态把技术转化为可规模化交付的产品与服务。据介绍，基于TeleVideo 2.0能力，TeleAI已推出面向公众的全链路视频创作平台TeleStudio，提供文生图、文生视频、图生视频及角色驱动等能力，并启动有关创作活动，意在扩大应用触达与生态共建。前景判断上，多模态视频生成仍处于快速迭代期。随着算力基础设施、训练框架与对齐方法持续演进，长时长、高分辨率、强一致性的视频生成能力有望更提升，并在工业设计、文旅传播、在线教育、泛娱乐内容等领域释放更大价值。但也要看到，技术进步越快，治理与规则建设越需要同步推进。只有在安全合规、版权保护与内容标识各上形成更成熟的机制，才能让新技术更稳健地进入生产流程，真正转化为高质量发展的新动能。

从技术研发到平台应用，从实验室成果到产业化落地，中国电信在视频生成技术领域的探索实践，说明了我国科技企业在关键核心技术上推进自主创新的投入与进展；在全球新一轮科技革命和产业变革加速演进的背景下，只有掌握核心技术、构建自主可控的技术体系，才能在国际竞争中赢得主动。期待更多科技企业持续加大研发投入，推动我国在人工智能等前沿领域取得更多突破，为建设科技强国贡献力量。

我国多模态视频生成技术取得重大突破 电信自主研发模型跻身国际前列

我国多模态视频生成技术取得重大突破电信自主研发模型跻身国际前列