媒体界
行业纵横 资讯速递 科技前沿 企业动态 峰会论坛

微软新探索:音生图AI,实时视觉化会议演讲场景?

2024-10-15来源:ITBEAR编辑:瑞雪

近日,科技媒体MSPoweruser发布报道,透露微软公司新获一项创新专利,该专利描述了一种基于用户实时语音输入来生成图片的技术。

据悉,这项专利文件长达20页,微软于2023年4月5日提交申请,并于10月10日获得批准。根据专利的详细描述,该系统能够在会议或讲座等场合实时捕捉音频内容,随后利用语言模型对这些音频进行总结,并据此生成相应的AI图像。

该专利所描述的工作流程分为三个主要步骤:首先是捕捉音频,即用户通过麦克风发言,系统实时记录并将其转化为文本;其次是处理文本,系统将文本分段记录,并对每段内容通过语言模型进行总结;最后是生成图像,系统根据总结生成的提示,创建AI生成的图像,并在屏幕上实时显示。

预计这一功能将主要应用于Microsoft Teams平台。随着演讲者话题的变化,实时生成的图像也会随之更新,从而为用户带来更加丰富的视觉沟通体验。微软表示,这种图像的使用有助于澄清概念,尤其适合那些需要通过视觉辅助来学习的用户。

长安启源E07来袭,10月21日上市,预售价24.99万起!
10月15日消息,据懂车帝报道,长安启源E07将于10月21日上市,目前公布的预售价为24.99万元起:纯电90kWhMax智驾版:26.99万元启源E07基于SDA架构打造,新车将SUV和皮卡设计结…

2024-10-15

按摩店、澡堂、寺庙成“酒店平替”?这届出行方式太野了!
小红书等平台还有一些机场过夜帖,就是“旅游特种兵们”总结下来的经验分享:某机场某免费休息区,安静能充电……但实际上是“躺椅根本抢不到,只能坐那个硬椅子,旁边干什么的都有,而且第二天六点不到就被赶出来了”“在机…

2024-10-15