媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

HiMo-CLIP来袭:让AI精准捕捉长文本关键,图像检索准确率大幅提升

2025-12-03来源:快讯编辑:瑞雪

在图像检索领域,传统模型处理复杂文本描述时常常力不从心。以CLIP为代表的现有技术面对"白色福特F250皮卡配备有色车窗和超大轮胎"这类包含多个细节的查询时,往往难以精准匹配目标图像。这种"描述越详细匹配越差"的现象,成为制约技术发展的关键瓶颈。

中国联通数据科学与人工智能研究院团队推出的HiMo-CLIP模型,通过创新性的动态语义指纹技术破解了这一难题。该模型搭载的HiDe模块采用统计学方法,能在海量文本中自动识别最具区分度的特征。例如在汽车检索场景中,系统会优先捕捉"超大轮胎"这类核心特征,而非泛化的"有色车窗"描述,使匹配准确率提升至89.3%。

研发团队设计的MoLo损失机制构建了双重保障体系,既确保整体语义匹配,又强化核心特征对齐。这种设计使模型在处理长文本时得分随信息量增加而提升,彻底改变了"多说多错"的行业痛点。在MSCOCO-Long测试集上,新模型的mAP指标较前代提升近20%,同时在Flickr30K短文本测试中保持98.3%的原始性能。

技术落地应用已显现显著成效。京东商品搜索系统接入该模型后,用户使用"黑色连帽卫衣带白色抽绳和刺绣logo"等复杂描述时,搜索转化率提升27%。自动驾驶领域正探索将其用于解析"前方施工区域有黄色警示牌和穿橙色背心的工人"等场景描述,帮助车载系统更精准识别环境要素。

这个开源项目在GitHub上线半年即获得2.3k星标,字节跳动、商汤科技等企业已开展技术验证。当前版本在处理"碳纤维车身包围"等专业术语时仍存在局限,研发团队计划2026年第三季度推出多语言版本,届时将支持外语描述的精准匹配。该成果标志着中国团队在AI基础研究领域取得重要突破,其模拟人类认知逻辑的创新思路,为多模态智能发展提供了新方向。

雷军展望未来五年:AI赋能产业升级 智能制造引领北京抢占“智”高点
他特别提到,未来五年,人形机器人将大规模进入小米工厂,“这还只是第一步”,家庭场景对人形机器人的需求潜力更大、要求更高、市场更广阔。 他还建议,北京应进一步开放智能制造应用场景,支持龙头企业牵头建设示范工厂,…

2025-12-03

第七届工业互联网大赛新兴产业赛:聚焦前沿 共筑未来创新生态
作为本届大赛的重点方向之一,新兴产业行业赛展现了与传统工业领域不同的技术结构和发展特征,呈现出“新兴属性更强、技术融合更深、产业延展更广”的总体趋势。参赛团队普遍围绕数字化、智能化、平台化方向开展实践,在数…

2025-12-03

马斯克预言:未来一二十年内工作成可选 货币或因AI发展而消逝
他预计,未来10至20年,人类“工作”或不再是必需,而是可自由选择的活动。若AI与机械人技术按当前速度演进,生产力将满足人类所有物质需求,人类能随时获取所需商品与服务,甚至进入“你能想到,就能拥有”阶段。 …

2025-12-03