媒体界
行业纵横 资讯速递 科技前沿 企业动态 峰会论坛

微软开源OmniParser,GPT-4V秒解析屏幕截图,智能新突破!

2024-10-29来源:ITBEAR编辑:瑞雪

微软近日宣布了一项重大开源项目——OmniParser,这是一款专为解析和识别屏幕上可交互图标设计的AI工具。传统自动化方法受限于HTML或视图层次结构,而现有的视觉语言模型在处理复杂GUI元素时又显得力不从心。为此,微软推出了这款纯视觉基础的工具,旨在解决当前屏幕解析技术的局限性。

OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块,无需依赖HTML标签或视图层次结构等显式基础数据。这一特性使得它能够在桌面、移动设备和网页等多种平台上跨平台工作,显著提高了用户界面的解析准确性。OmniParser还能将识别出的屏幕元素转换成结构化的数据。

在实际测试中,OmniParser展现出了卓越的性能。在ScreenSpot数据集中,它的准确率提高了73%,远超依赖HTML解析的模型。同时,当GPT-4V使用OmniParser的输出后,图标的正确标记率从70.5%提升至93.8%。这些改进充分证明了OmniParser在解决当前GUI交互模型根本缺陷方面的有效性。

微软已在Hugging Face上发布了OmniParser,这一举措将有助于普及这一前沿技术,进一步推动多模态AI的发展,特别是在无障碍、自动化和智能用户辅助等领域。

中国2025载人航天标识征集中,观摩发射机会等你拿!
(一)稿人 / 单位自行下载《2025年度载人航天飞行任务标识征集活动信息填报表》(见附件)并完成填写,将填报表及标识设计图以压缩文件形式作为邮件附件发送,压缩文件以“xx任务标识投稿 + 姓名 + 手…

2024-10-29

深蓝S05新车型亮相,搭载高通骁龙8155芯片
10月29日消息,长安深蓝S05汽车已于今年10月20日上市,该车提供纯电和增程双动力版本,售价11.99万元起。深蓝S05还全系标配6kW户外移动供电枢纽,支持家用电器和工具使用。另外,深蓝S05的…

2024-10-29

中国载人月球车双版本并进,初样研制阶段开启!
10 月 29 日消息,神舟十九号载人飞行任务新闻发布会今天(10 月 29 日)上午在酒泉卫星发射中心召开。 据央视新闻报道,发言人介绍,载人月球车方案征集经过两轮择优,最终航天科技集团有限公司上…

2024-10-29