国内首个开源音视频模型MOVA问世，邱锡鹏详解与Seedance2.0的差异化之路-资讯速递-媒体界

近日，上海创智学院与模思智能联合推出的国内首个开源高质量音视频同步生成模型MOVA引发行业热议。这款模型不仅填补了国内开源领域在音视频生成基础模型方面的空白，更以全栈开源的姿态为中小团队和学术研究提供了低成本落地的可能性。与此同时，字节跳动发布的商用化模型Seedance2.0也因马斯克在社交平台X上的评价"发展速度太快了"而备受关注，两大模型的差异化竞争成为科技界焦点。

MOVA项目负责人、复旦大学计算与智能创新学院教授邱锡鹏在接受专访时表示，MOVA与Seedance2.0虽同属音画一体生成技术，但在技术路线和应用定位上存在显著差异。从生成效果来看，MOVA支持最长8秒、720p分辨率的视频输出，而Seedance2.0已实现15秒时长与2K高清分辨率。但MOVA的核心优势在于其完全开源的特性——不仅开放了360p和720p两个基础模型，还公开了微调、推理、生成工作流等全链路组件，支持二次开发和本地部署，为动漫、游戏等垂直场景提供了可定制化的技术底座。

这种开源策略与当前行业主流的闭源模式形成鲜明对比。据介绍，全球音视频生成领域中，包括Seedance2.0在内的绝大多数模型均不公开技术细节，不提供模型文件下载，也不允许本地部署。邱锡鹏坦言："开源是MOVA与这些模型最大的不同。我们希望通过技术普惠吸引更多研究者参与，既推动技术快速迭代，也助力国内开源生态建设。"这种理念在其团队过往项目中已有体现——2023年2月发布的类ChatGPT对话模型MOSS，在两个月后即成为国内首个支持搜索、画图、计算等插件的开源对话模型。

在技术架构上，MOVA采用了混合专家创新设计，在保证生成质量的同时提升了推理效率。邱锡鹏将其团队定位为"挑战者"："Seedance2.0代表商用导向的工业级投入，而MOVA更注重构建开放社区。"这种定位背后是巨大的技术挑战——音视频模型的数据规模远超文本模型，且训练所需的底层基础设施尚不完善。邱锡鹏透露，项目推进过程中最大的困难在于算法层面缺乏可借鉴内容，而数据工程能力也非高校和科研机构的传统强项。

突破这些瓶颈得益于上海创智学院"研创学"融合的育人模式。学院为学生提供参与重大项目的实战机会，使原本缺乏人工智能基础的学生在半年内展现出创新能力。同时，学院孵化的模思智能凭借企业优势攻克了数据工程关键难题。这种产学研协同机制为MOVA的研发提供了重要支撑。据透露，MOVA1.5版本预计在3月底推出，性能将有显著提升。