媒体界
行业纵横 资讯速递 科技前沿 企业动态 峰会论坛

智源发布Emu3:原生多模态世界模型,能否一统图像文本视频?

2024-10-22来源:ITBEAR编辑:瑞雪

智源研究院近期推出了全新的原生多模态世界模型——Emu3,该模型在文本、图像和视频三种模态数据的理解和生成上展现出卓越能力。其独特之处在于,仅需基于下一个token预测,无需依赖扩散模型或组合方法,便能实现多模态数据的统一处理。

在图像生成任务中,Emu3的表现优于SD-1.5与SDXL模型,获得了人类偏好评测的高度认可。同时,在视觉语言理解任务中,Emu3也展现出了强大的实力,其对于12项基准测试的平均得分超越了LlaVA-1.6。在视频生成任务中,Emu3同样表现出色,VBench基准测试得分高于OpenSora 1.2。

Emu3配备了一个强大的视觉tokenizer,能够将视频和图像转换为离散token,这些token可以与文本tokenizer输出的离散token一同送入模型中。这一特性为Any-to-Any任务提供了更加统一的研究范式。

Emu3的研究结果充分证明了下一个token预测作为多模态模型范式的强大潜力,它不仅能实现超越语言本身的大规模多模态学习,还能在多模态任务中取得先进性能。目前,Emu3已开源关键技术和模型,为相关研究提供了有力支持。

NASA与SpaceX或将“Crew-8”返航延至10月23日
10 月 22 日消息,当地时间 10 月 21日,美国国家航空航天局(NASA)发表声明称,佛罗里达州多个潜在溅落地点附近的天气状况仍然不利于“Crew-8”返航任务的进行。 声明称,如果天气状…

2024-10-22

霍尼韦尔携手谷歌云,Gemini生成式AI赋能工业新篇章!
10 月 21 日消息,霍尼韦尔(Honeywell)今日宣布与谷歌云(Google Cloud)进行合作,将生成式人工智能Gemini 引入工业领域。 霍尼韦尔是一家多元化高科技和制造企业,其业…

2024-10-21

东风风行星海S7增程版亮相工信部,纯电续航168km引关注
10月21日消息,东风风行星海S7增程版现已现身工信部,该车搭载容量为28.4千瓦时的电池组,工信部纯电续航里程为168公里。目前系列车型中的纯电版已先行上市,指导价格区间为11.98万-15.49万…

2024-10-21