中国视频生成领域迎来新突破,昆仑万维旗下Skywork AI近日推出多模态视频基础模型SkyReels V4。该模型宣称是全球首个同时具备多模态输入、音视频联合生成以及统一处理生成、修复、编辑任务能力的视频模型,标志着国内企业在这一赛道的技术竞争进入新阶段。
第三方评测机构Artificial Analysis数据显示,SkyReels V4在"文生视频(带音频)历史模型"榜单中跃居第四位,超越多数国际知名产品。测试样本显示,基于官方参考图生成的15秒视频片段,镜头切换流畅,音画同步效果达到短剧制作水准,在AA榜单模型中展现出显著优势。
技术架构方面,该模型采用双流多模态扩散Transformer(MMDiT)核心设计,实现1080p分辨率、32帧率、15秒时长音视频同步输出。其功能覆盖主体替换、动作迁移、属性修改、背景更换等编辑需求,支持中、英、日、韩、德、法等多语种文本合成,中文语音合成效果尤为突出,多项指标达到行业领先。
针对视频生成工具的三大痛点,研发团队提出创新解决方案。传统工具存在音画不同步问题,SkyReels V4的双流架构让视频与音频从任务初始便协同工作,通过双向跨注意力机制提升角色嘴型、动作与声音匹配度。面对高清长视频生成算力消耗大的难题,模型采用"低分辨率全序列+高分辨率关键帧"联合生成策略,先快速生成低分辨率完整视频和高分辨率关键帧,再通过专用模块重构高质量视频,显著降低制作门槛与成本。针对剪辑需多软件切换的问题,模型整合生成、编辑、处理功能,提出通道拼接与时序拼接的统一范式,减少工具依赖提升效率。
行业生态变化为技术突破带来新挑战。上月字节跳动发布的Seedance2.0因版权问题遭遇国际诉讼,美国电影协会及六大制片厂联合发函要求停止侵权。该模型随后出现视频质量下降、产出不稳定现象,演员王劲松公开控诉其形象被用于AI生成视频,担忧深度伪造技术可能成为诈骗工具。这类事件暴露出创作平权与版权保护的矛盾——当普通用户无意使用IP素材生成视频时,侵权行为将难以追责。
SkyReels V4的突破性进展与Seedance2.0的版权风波形成鲜明对比。中国AI企业想要在国际市场站稳脚跟,需要突破算力算法优势之外的新维度,在数据合法性、合规成本等方面构建竞争壁垒。技术竞赛与规则赛跑的格局,正在重塑视频生成领域的全球竞争版图。