谷歌开源大规模词义消歧语料,有望解决“AI 完全问题”

发布时间:2017-01-25 阅读量:809 来源: 我爱方案网 作者: cywen

理解文本中特定单词的不同含义对于语言的理解是一个关键。例如,在句子“他将获得重组后的公司的股票”中,我们知道,根据牛津英语字典(NOAD)的定义,这一语境下,“股票”(stock)一词指的是“商业或公司通过发行和认购股份筹集的资本”。但是,在牛津英语字典中,stock 还有超过10种其他的定义,比如“商店中的货物”或者“中世纪一种用于惩罚的的工具”。对于计算机算法来说,区分这些含义非常困难,以致于这一任务过去通常被描述为“AI 完全问题”(AI-complete)。

为了进一步解决这一挑战,谷歌1月19日宣布,基于常用的MASC和SemCor 数据库的词义注释正式发布,这些注释是基于牛津英语词典人为注释的。谷歌还同时发布了从NOAD 词义到English Wordnet 转换的描述,这是一个在研究者社区更加常用的数据库。这是最大的全词义注释英语语料库之一。

监督式词义消歧

 分辨文本中的单词含义对于人类来说非常简单,因为关于世界是如何运转的、这些机制与语言有什么联系,我们已经积累了大量的常识。举例来说,在商业中,“stock” 指的是金融,而在商店中,“stock”更可能指货架上的商品,虽然商店从某种程度上来说也是商业的一部分。以机器可以使用的形式获取足够的知识,然后将其应用于理解文本中的单词,这是一个挑战。

监督式词义消歧(WSD)是使用人类标记的数据构建机器学习系统中的一个难题,该系统可以为文本中使用的所有词语对应词典义项(与实体消歧相反,它主要聚焦于名词,并且大部分是正确的) 。打造一个监督式模型,并且要比简单地分配最常见的词义而不考虑文本背景有更好地表现,这是相对更难的,但是,监督式模型在拥有海量的训练数据时,可以表现得更好。

谷歌工程师Colin Evans 和 Dayu Yuan 在博客上说,通过发布这一数据库,他们希望整个研究社区能够进一步改进算法,进而让机器更好地理解语言,让更多的应用成为可能:

比如:
 
推动从文本中自动构建数据库,以回答问题和联系文本中的知识。例如,理解“半引擎”是一种汽车机械,“机车引擎”是一种火车,或者“Kanye West是一个 star ”,意味着他是一个名人,但“Sirius 是一种star “意味着它是一个天文物体。消除搜索中的词语含义,使得“date palm ”和“date night ”或“web spam”和“spam recipe”在不同的场景下有不同的解释,并且从查询返回的文档具有相同搜索时蕴含的相同含义。

人工标注

在我们发布的人工标注的数据集中,每个义项的注释由5位评估者进行标记。为了确保义项标注的高质量,评估者首先使用金注释进行训练,也就是在开始标记注释任务之前,在一个单独的试验研究中,由经验丰富的语言学家进行标记。下图是我们的注释工具中,评估者工作页面的一个示例:



页面的左侧列出了单词的所有词典义项(这里以单词“general”为例),还提供了从词典中抽取的例句。例句中突出显示的是待注释词汇,显示在工作页面的右侧。除了为待注释词汇标注词典里的义项外,评估者还可以标注三种例外情况:(1)单词拼写错误;(2)词典义项中没有符合的;(3)无法确定。评估者可以检查该词在该句子里是否是一个比喻用法,并留下评论。

该语料库里的释义标注任务在评分者间信度评分(inter-rater reliability score)中得到 0.869 的分数,使用 Krippendorff 的 α 方法(α> = 0.67 被认为是可接受的再现性水平,α> = 0.80 被认为是高度可重复的结果)(Krippendorff,2004 )。注释计数如下表所示:

Wordnet 映射

我们的语料库还包括了从 NOAD 到 Wordnet 的两组映射。在一个2200词的较小型语料集中,使用与上述注释过程类似的方式进行人工的映射,并通过算法创建一个更大的集合。这些映射允许将 Wordnet 里的资源应用到 NOAD 语料库,并对使用 Wordnet 构建的系统使用该语料库进行评估。

有关使用基于LSTM的语言模型和半监督学习对这个语料库的完整研究结果,可以查看我们的论文“Semi-supervised Word Sense Disambiguation with Neural Models”


开源地址:github地址:https://github.com/dmorr-google/word_sense_disambigation_corpora
相关资讯
中国芯片产业再突破:小米自研3nm玄戒O1芯片量产开启高端化新篇章

2025年5月20日,小米集团董事长雷军通过微博宣布,小米自主研发的3nm旗舰芯片“玄戒O1”已进入大规模量产阶段,并计划于5月22日发布会上推出搭载该芯片的高端旗舰手机小米15S Pro和OLED平板7 Ultra。这一突破标志着中国芯片设计能力正式跻身全球第一梯队,成为继苹果、高通、联发科之后全球第四家掌握3nm手机SoC技术的企业。

国产芯片突围战:国科微4TOPS算力芯片如何撼动车载AI市场?

在全球汽车智能化浪潮下,车载芯片正成为产业链竞争的核心战场。国科微近期在接受机构调研时透露,公司已完成多款车规级AI芯片和SerDes芯片的研发测试,并通过ISO26262 ASIL B功能安全认证,标志着国产芯片企业在智能驾驶领域实现关键技术突破。本文将结合行业趋势与企业动态,分析其技术布局与市场前景。

从去库存到补周期:2025上半年存储市场供需拐点深度透视

全球存储产业在2025年上半年经历了显著的价格波动周期,呈现典型的"V型"复苏态势。据TrendForce最新市场监测数据显示,五大NAND Flash头部厂商(三星、SK海力士、美光、铠侠、西部数据)于二季度联合实施产能调控策略,将稼动率下调10-15个百分点,这一战略性减产措施有效缓解了市场库存压力。存储器现货价格指数显示,NAND Flash产品价格在Q2实现3-8%的环比涨幅,成功扭转连续三个季度的下行趋势。

开关损耗降低55%:解析东芝第三代SiC MOSFET的竞争优势与应用前景

2025年5月20日,东芝电子元件及存储装置株式会社(以下简称“东芝”)宣布推出四款650V碳化硅(SiC)MOSFET器件——TW031V65C、TW054V65C、TW092V65C和TW123V65C。这些产品基于第三代SiC MOSFET技术,采用创新的DFN8×8表贴封装,显著提升了功率密度和开关效率,主要面向工业设备中的开关电源、光伏逆变器及电动汽车充电站等高增长领域。

BOM成本直降30%!贸泽首发高性价比AI处理器方案

在全球智能化转型加速的背景下,贸泽电子作为全球领先的电子元器件代理商,今日宣布正式开放Renesas Electronics RZ/V2N嵌入式AI微处理器的全球供货。这款采用创新架构的处理器专为视觉AI应用场景深度优化,通过集成式异构计算方案,成功在算力密度与能效比之间取得突破性平衡,其15 TOPS的AI推理性能搭配10 TOPS/W的能效表现,为工业视觉、移动机器人等边缘计算领域带来全新解决方案。