【产学研】没有文字属性,机器怎么识别区分图像?用算法技术!

发布时间:2016-12-23 阅读量:4312 来源: 发布人:

本文中我爱方案网将给大家介绍基于视觉信息的图像重排序技术方案。
如需开发相关项目,快包可提供技术团队对接服务。

当前网络上的图像搜索引擎(百度、谷歌、必应等)几乎完全依赖于图像周围的文字信息,而不考虑图像内容本身的视觉信息,其结果是搜索结果不鲁棒,容易出错。一个重要的解决方案是对搜索结果重新排序。以往的基于视觉信息的图像重排算法有两个缺陷:1)需要对文字搜索的结果离线训练。这样就限制了系统的反应速度,无法适应实时网络图像搜索;2)不能处理由于文字的模糊语义产生的搜索结果。

为了克服以上的两个困难,技术团队提出了基于用户意图的,交互式的图像查询、重排序的解决方案。首先,用户可以从基于文字搜索的结果中选中检索图像,通过与检索图像的相似性比较,技术团队对所有搜索结果重新进行排序。通过技术团队的观察发现,当图像属于某一大类的时候,使用对该大类最具区分性的图像特征往往能够达到比较好的效果。不同的图像的大的语义上的类别,例如风景、人物肖像、一般物体(静物)、人物活动等,技术团队称之为“意图类别”。对于属于不同的“意图类别” 中的图像,技术团队采用不同的视觉特征的组合来刻画图像的相似性度量。从而能够实时有效的提高图像检索结果,而大幅度提高用户体验。

另外,技术团队还提出一种新的实时性非交互式重排序算法--主导数据选择算法,发掘图片集的群集信息。此算法从搜索引擎的搜索结果数据分布入手对图像进行重排序。首先,对于搜索引擎检索的图片集,技术团队提取视觉特征建立谱图,并将离散的图节点当作噪声图像除去。然后,技术团队从被搜索引擎排在前面的图片中,提取主导群集的图节点对应的图像作为正样本进行半监督学习。此算法具有实时性和无需用户交互的特性。在公开的数据库上的实验证明技术团队的算法性能超过其他先进的图像重新排序方法。


方案优势:

“意图识别”重排序算法与微软必应搜索引擎的结果对比:


图1搜索结果与微软必应搜索引擎的结果对比

图2在数据库2中搜索结果与微软必应搜索引擎的结果对比

技术团队采用oxford建筑数据集(http://www.robots.ox.ac.uk/~vgg/data/oxbuildings/index.html)测试基于单词区分性的加权方法,使用传统tf-idf加权时检索精度为61.4%。技术团队的方法可以将检索精度提高到68.0%,如果进一步采用查询扩充(query expansion)方法,精度可以提高到80.0%。
“主导数据选择”算法与谷歌搜索引擎的结果对比

为了更好地在多样化环境中评价技术团队的“主导数据选择”算法,技术团队使用含有多达353类和71478张图片的INRIA数据库。初始排序前100的图像用作所有基于谱图算法的带噪查询集。技术团队也列出逻辑回归分类器[4](文本特征、视觉特征、文本与视觉混合特征)的比较实验。实验结果以平均排序精度的均值(MAP)作衡量。


图3:INRIA数据库:353类图像的查询集的平均精度。(从左至右:谷歌搜索引擎、标签诊断算法[11]、谱过滤器[7]、“主导数据选择”算法)。

本研究团队的研究成果转化的产品可应用在专业搜索引擎网站的图像搜索功能上,能为其用户提供基于“用户意图”与“主导数据选择”的图像检索服务,能给与用户更好的检索体验,提供与其检索意图更为精准匹配的检索结果,提高其检索效率。

同时,该技术亦可用于专业的图像检索领域,如网络购物领域的图像检索,通过用户上传其欲购买的商品图像检索相关产品的供应信息,使用户能迅速找到其欲购买的产品,提高检索效率,提升用户的购物体验,促进消费。


关于快包与“产学研”

产学研即产业、学校、科研机构等相互配合,发挥各自优势,形成强大的研究、开发、生产一体化的先进系统并在运行过程中体现出综合优势。 产学研合作是指企业、科研院所和高等学校之间的合作,通常指以企业为技术需求方,与以科研院所或高等学校为技术供给方之间的合作,其实质是促进技术创新所需各种生产要素的有效组合。

快包一直致力推动智能产业的发展,通过构建外包平台的形式促进智能产品方案供需双方的合作。如今快包携手“产学研”旨在让科研走进市场。近期快包整理了一系列来自研究机构以及高校的科研团队资料,推出大型产学研系列专题文章。通过展示他们的项目案例促进智能产业界对他们更深层次的了解。这些团队能够提供攻坚技术和前沿核心技术,精准解决一些较大企业的技术实现难题。

欲对接产学研项目,请联系:kb@52solution.com 400-085-2125



相关资讯
全球首发全风冷兆瓦级航空发电系统,中国技术领跑绿色航空新赛道

2025年5月16日,北京电擎科技有限公司在第三届先进技术成果转化大会上正式发布AGS1000型航空发电系统。作为我国首型兆瓦级全风冷、高功率密度航空发电系统,该产品实现了从材料到核心部件的100%国产化,标志着我国在航空混合电推进领域迈入国际领先梯队。本文将从技术优势、竞争对比、创新突破、应用场景及市场前景等多维度,解析这一跨时代产品的战略意义。

艾迈斯欧司朗VCSEL技术革新:高精度3D传感如何赋能工业4.0与智能机器人

2025年5月20日,全球光学解决方案领导者艾迈斯欧司朗(ams OSRAM)正式发布两款基于垂直腔面发射激光器(VCSEL)技术的3D传感核心组件——BIDOS® P3435 Q BELAGO 1.2点斑投射器与BIDOS® P2433 Q/V105Q121A-850泛光投射器。这两款产品通过优化红外激光技术与集成化设计,显著提升了3D传感系统的精度与可靠性,为工业机器人、多模态人脸识别、无人运输系统等场景带来突破性进展。

高通联手英伟达:异构计算如何颠覆AI数据中心?

在2025年台北国际电脑展(COMPUTEX 2025)上,高通公司总裁兼CEO安蒙(Cristiano Amon)发表了题为《AI重塑计算未来》的主题演讲,全面阐述了高通在AI PC、数据中心及机器人领域的战略布局。安蒙强调,高通正通过“混合AI”架构与定制化硬件创新,推动终端侧与云端协同的智能革命,目标是在全球计算产业中占据核心地位。

第五代互连技术登场:NVLink Fusion突破AI算力瓶颈

"数据中心架构正在经历数十年来的首次根本性变革——人工智能正在融入每个计算平台。"在COMPUTEX 2025的发布会上,黄仁勋揭示了NVLink Fusion技术的战略意义。这项突破性互连技术通过开放NVIDIA AI平台生态系统,使合作伙伴能够构建专用AI基础设施,标志着异构计算新时代的开启。

英特尔发布新一代专业计算解决方案,加速AI产业化进程

在Computex 2025展会上,英特尔正式推出面向专业计算领域的三大创新解决方案:锐炫Pro B系列GPU、Gaudi 3 AI加速器及AI Assistant Builder开发框架。此次发布的硬件与软件组合,标志着英特尔在AI产业化进程中迈出关键一步,致力于为开发者与企业用户提供端到端的加速计算平台。