国内首个开源高质量音视频同步生成模型MOVA发布，复旦团队联合模思智能填补开源领域空白，以技术普惠理念构建开放生态

全球科技竞争日益激烈的背景下，音视频生成技术成为人工智能领域的新焦点。近期，上海创智学院与模思智能联合推出的MOVA模型，标志着我国在开源音视频生成领域迈出关键一步。当前，国内外多数音视频生成模型采取闭源策略，技术路线不公开，限制了行业协同创新。相比之下，MOVA选择完全开源，不仅公开了360p和720p基础模型，还开放了微调、推理等全链路组件。邱锡鹏教授指出，开源是技术普惠的必然选择，能够吸引更多研究者参与，加速技术进步并完善国内开源生态。从技术层面看，MOVA支持最长8秒、720p分辨率的音视频同步生成，虽在时长与画质上略逊于部分商用模型，但其混合专家架构在生成质量与推理效率间实现了平衡。更重要的是，开源特性使其成为中小团队和垂直领域的理想选择，可大幅降低技术应用门槛。此突破背后是科研团队对行业痛点的深刻洞察。音视频模型开发难度远超文本模型，不仅数据规模庞大，且训练基础设施要求极高。邱锡鹏坦言，高校团队在此类项目中常面临算法创新与数据工程的双重挑战。上海创智学院通过"研创学"融合模式，为学生提供实践平台；而模思智能则依托企业资源，解决了数据工程等关键问题。展望未来，MOVA的开源策略或将对行业格局产生深远影响。一上，开放生态有助于汇聚创新力量，缩短技术迭代周期；另一方面，该模式为我国人工智能领域的自主创新提供了新思路。随着更多开发者加入，开源社区有望催生更丰富的应用场景，推动技术成果向实体经济加速渗透。

音视频生成从概念走向应用，既需要更强的模型，也需要更开放的生态。当开源将核心能力从少数机构手中发出来，创新的重心自然会转向场景与服务本身。如何在开放共享与安全合规之间找到平衡，在工程效率与内容质量之间实现可持续迭代，将决定这条赛道能否真正走向规模化、普惠化的发展。