本文中我爱方案网将给大家介绍基于视觉信息的图像重排序技术方案。
如需开发相关项目,快包可提供技术团队对接服务。
当前网络上的图像搜索引擎(百度、谷歌、必应等)几乎完全依赖于图像周围的文字信息,而不考虑图像内容本身的视觉信息,其结果是搜索结果不鲁棒,容易出错。一个重要的解决方案是对搜索结果重新排序。以往的基于视觉信息的图像重排算法有两个缺陷:1)需要对文字搜索的结果离线训练。这样就限制了系统的反应速度,无法适应实时网络图像搜索;2)不能处理由于文字的模糊语义产生的搜索结果。
为了克服以上的两个困难,技术团队提出了基于用户意图的,交互式的图像查询、重排序的解决方案。首先,用户可以从基于文字搜索的结果中选中检索图像,通过与检索图像的相似性比较,技术团队对所有搜索结果重新进行排序。通过技术团队的观察发现,当图像属于某一大类的时候,使用对该大类最具区分性的图像特征往往能够达到比较好的效果。不同的图像的大的语义上的类别,例如风景、人物肖像、一般物体(静物)、人物活动等,技术团队称之为“意图类别”。对于属于不同的“意图类别” 中的图像,技术团队采用不同的视觉特征的组合来刻画图像的相似性度量。从而能够实时有效的提高图像检索结果,而大幅度提高用户体验。
另外,技术团队还提出一种新的实时性非交互式重排序算法--主导数据选择算法,发掘图片集的群集信息。此算法从搜索引擎的搜索结果数据分布入手对图像进行重排序。首先,对于搜索引擎检索的图片集,技术团队提取视觉特征建立谱图,并将离散的图节点当作噪声图像除去。然后,技术团队从被搜索引擎排在前面的图片中,提取主导群集的图节点对应的图像作为正样本进行半监督学习。此算法具有实时性和无需用户交互的特性。在公开的数据库上的实验证明技术团队的算法性能超过其他先进的图像重新排序方法。
方案优势:
“意图识别”重排序算法与微软必应搜索引擎的结果对比:
图1搜索结果与微软必应搜索引擎的结果对比
图2在数据库2中搜索结果与微软必应搜索引擎的结果对比
技术团队采用oxford建筑数据集(http://www.robots.ox.ac.uk/~vgg/data/oxbuildings/index.html)测试基于单词区分性的加权方法,使用传统tf-idf加权时检索精度为61.4%。技术团队的方法可以将检索精度提高到68.0%,如果进一步采用查询扩充(query expansion)方法,精度可以提高到80.0%。
“主导数据选择”算法与谷歌搜索引擎的结果对比
为了更好地在多样化环境中评价技术团队的“主导数据选择”算法,技术团队使用含有多达353类和71478张图片的INRIA数据库。初始排序前100的图像用作所有基于谱图算法的带噪查询集。技术团队也列出逻辑回归分类器[4](文本特征、视觉特征、文本与视觉混合特征)的比较实验。实验结果以平均排序精度的均值(MAP)作衡量。
图3:INRIA数据库:353类图像的查询集的平均精度。(从左至右:谷歌搜索引擎、标签诊断算法[11]、谱过滤器[7]、“主导数据选择”算法)。
本研究团队的研究成果转化的产品可应用在专业搜索引擎网站的图像搜索功能上,能为其用户提供基于“用户意图”与“主导数据选择”的图像检索服务,能给与用户更好的检索体验,提供与其检索意图更为精准匹配的检索结果,提高其检索效率。
同时,该技术亦可用于专业的图像检索领域,如网络购物领域的图像检索,通过用户上传其欲购买的商品图像检索相关产品的供应信息,使用户能迅速找到其欲购买的产品,提高检索效率,提升用户的购物体验,促进消费。
关于快包与“产学研”
产学研即产业、学校、科研机构等相互配合,发挥各自优势,形成强大的研究、开发、生产一体化的先进系统并在运行过程中体现出综合优势。 产学研合作是指企业、科研院所和高等学校之间的合作,通常指以企业为技术需求方,与以科研院所或高等学校为技术供给方之间的合作,其实质是促进技术创新所需各种生产要素的有效组合。
快包一直致力推动智能产业的发展,通过构建外包平台的形式促进智能产品方案供需双方的合作。如今快包携手“产学研”旨在让科研走进市场。近期快包整理了一系列来自研究机构以及高校的科研团队资料,推出大型产学研系列专题文章。通过展示他们的项目案例促进智能产业界对他们更深层次的了解。这些团队能够提供攻坚技术和前沿核心技术,精准解决一些较大企业的技术实现难题。
欲对接产学研项目,请联系:kb@52solution.com 或 400-085-2125