媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

复旦百度联手突破!音频直接生成4K一小时长视频

2024-10-21来源:ITBEAR编辑:瑞雪

复旦大学与百度携手推出全新AI模型——Hallo2,该模型已正式在GitHub开源。Hallo2能够生成长达数小时、分辨率为4K的人物动画,相较于前代模型,实现了显著提升。

Hallo2模型基于latent diffusion models构建,引入了数据增强方法,如patch-drop和高斯噪声,有效提升了长时间视频的视觉一致性和时间连贯性。同时,该模型还结合了向量量化生成对抗网络和时间对齐技术,确保了高分辨率视频的质量和流畅性。

Hallo2还创新性地将可调整的语义文本标签的肖像表情作为条件输入,提高了生成内容的可控性和多样性。据项目页面介绍,Hallo2是首个实现4K分辨率并生成长达1小时音频驱动人像图像动画的方法,且可通过文本提示进行增强。

附Hallo2项目地址。

华为2025数智大会:全场景新品矩阵,开启智慧生活新范式
在智慧办公场景,手机、电脑、平板的键鼠共享与文件拖拽功能,让撰写报告时可随时调用不同设备的资料,在会议中能快速投屏展示内容,大幅提升协作效率;在生活场景中,华为穿戴设备可联动智能家居,实现“回家模式”下灯光、…

2025-12-08

22岁俄罗斯女孩新算法破局,任正非:中国创新生态正孕育无限可能
当整个社会还在焦虑“35岁职场淘汰线”时,华为的22岁俄罗斯女孩已经用新余数算法在数学界撕开一道裂缝;当学术界还在争论“原创需要十年磨一剑”时,一群平均年龄不到25岁的华为年轻人已经把世界级气象模型从论文变成…

2025-12-08

华为2025数智大会展全场景智慧:打破设备壁垒,开启无缝互联新生活
通过这次的华为展台,我们可以更清晰的看到:当行业还在讨论单一硬件的性能极限时,华为早已将目光投向了更宏大的命题——如何打破设备间的物理壁垒,构建一个无缝流转的智慧生活空间。在全场景专桌,我们看到了HUAWE…

2025-12-08