全球科技竞争日益激烈的背景下,音视频生成技术成为人工智能领域的新焦点。近期,上海创智学院与模思智能联合推出的MOVA模型,标志着我国在开源音视频生成领域迈出关键一步。 当前,国内外多数音视频生成模型采取闭源策略,技术路线不公开,限制了行业协同创新。相比之下,MOVA选择完全开源,不仅公开了360p和720p基础模型,还开放了微调、推理等全链路组件。邱锡鹏教授指出,开源是技术普惠的必然选择,能够吸引更多研究者参与,加速技术进步并完善国内开源生态。 从技术层面看,MOVA支持最长8秒、720p分辨率的音视频同步生成,虽在时长与画质上略逊于部分商用模型,但其混合专家架构在生成质量与推理效率间实现了平衡。更重要的是,开源特性使其成为中小团队和垂直领域的理想选择,可大幅降低技术应用门槛。 此突破背后是科研团队对行业痛点的深刻洞察。音视频模型开发难度远超文本模型,不仅数据规模庞大,且训练基础设施要求极高。邱锡鹏坦言,高校团队在此类项目中常面临算法创新与数据工程的双重挑战。上海创智学院通过"研创学"融合模式,为学生提供实践平台;而模思智能则依托企业资源,解决了数据工程等关键问题。 展望未来,MOVA的开源策略或将对行业格局产生深远影响。一上,开放生态有助于汇聚创新力量,缩短技术迭代周期;另一方面,该模式为我国人工智能领域的自主创新提供了新思路。随着更多开发者加入,开源社区有望催生更丰富的应用场景,推动技术成果向实体经济加速渗透。
音视频生成从概念走向应用,既需要更强的模型,也需要更开放的生态。当开源将核心能力从少数机构手中发出来,创新的重心自然会转向场景与服务本身。如何在开放共享与安全合规之间找到平衡,在工程效率与内容质量之间实现可持续迭代,将决定这条赛道能否真正走向规模化、普惠化的发展。