媒体界
行业纵横 资讯速递 科技前沿 企业动态 峰会论坛

智谱清言App新功能上线,CogView3-Plus文生图模型有何亮点?

2024-10-14来源:ITBEAR编辑:瑞雪

智谱技术团队今日宣布,其研发的文生图模型CogView3及CogView3-Plus-3B已正式开源,并已在“智谱清言”App中上线。据团队介绍,CogView3是一款基于级联扩散技术的text2img模型,其生成过程分为三个阶段:首先生成512x512像素的低分辨率图像,随后通过中继扩散过程实现2倍超分辨率,生成1024x1024像素的图像,最后再次迭代生成2048x2048像素的高分辨率图像。

在实际应用中,CogView3的表现尤为出色。据官方数据显示,在人工评估中,其性能比目前最先进的开源文本到图像扩散模型SDXL高出77.0%,同时,其推理时间仅为SDXL的约十分之一。CogView3-Plus模型在CogView3的基础上引入了最新的DiT框架,进一步提升了整体性能。该模型采用了Zero-SNR扩散噪声调度,并引入了文本-图像联合注意力机制,有效降低了训练和推理成本。

CogView3-Plus模型使用的VAE潜在维度为16,相较于常用的MMDiT结构,它在保持模型基本能力的同时,实现了成本的有效控制。这两款模型的开源,无疑将为文本到图像的生成领域带来新的突破。

用户可以通过以下链接访问CogView3及CogView3-Plus-3B的开源仓库:

开源仓库地址:https://github.com/THUDM/CogView3

Plus 开源模型仓库:https://huggingface.co/THUDM/CogView3-Plus-3B https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

极氪副总裁:新车MIX新风系统强大,车上吃火锅?
10月14日消息,10月11日,极氪智能科技副总裁杨大成在微博上预热自家的全新车型极氪MIX,发布的视频展示了一个“在极氪MIX上吃火锅”的场景,众人将前排座椅旋转180°后,在车内装上可拓展桌板,放…

2024-10-14

问界新M5高速智驾撞死11只羊,经销商:车辆已减速
事发后华为后台检测到车辆遭遇了交通事故,有工作人员来电询问,随后吕先生联系保险公司并报警处理。经销商工作人员称,吕先生发现羊群到车的距离,应该在110米到120米左右,但他没有主动踩刹车也未调整方向,按照当时…

2024-10-14

马斯克称“筷子夹火箭”成真,这科幻竟无虚构?
首先,有网友在 X 上惊叹,SpaceX 能用发射塔回收火箭,简直“太不可思议了”。 接着,马斯克再发推文称,“发射塔接住了火箭”。然后,他又发了一句,“早上好”,并贴上了火箭被发射塔夹住的画面。 还有网友…

2024-10-14