据雷锋网《AI技术评论》报道,1月23日,谷歌人工智能的语言研究科学家汤姆·科维亚特科夫斯基和迈克尔·科林斯在谷歌AI博客上发表博文,宣布发布新的语料库Natural Questions (NQ ),用于大规模训练和评估开放领域问答系统,旨在推动人们开发更有效、更强大的问答系统。
开放领域问答(QA)是自然语言理解(NLU)中的一项基准任务,旨在模拟人们如何通过阅读和理解整个文档来寻找信息和找到问题的答案。给出一个用自然语言表达的问题(“为什么天空空是蓝色的?)一个问答系统应该能够阅读网页(比如这个维基百科页面)并返回正确答案,即使答案有点复杂冗长。然而,目前并没有大量的开放问题和答案可以用来训练和评估问答模型(比如人们在寻求信息时提出的问题)。这是因为为了回答问题而收集一个高质量的数据集,不仅需要大量的真题源,还需要大量的人力去寻找正确答案。
为了促进问答系统的研究进展,他们很高兴地发表了自然问题(Natural Questions,NQ),这是一个新的大规模训练和评估开放领域问答系统的语料库。它是人们寻找问题答案的端到端过程的第一个副本。NQ非常大,由30万个自然产生的问题和维基百科页面上人工标注的答案组成,可以用来训练问答系统。它们还包括16,000个例子,这些例子的答案(对同一问题)由5个不同的标注者标记,这有助于评估经过训练的问答系统的性能。计算机回答琐碎的事情很容易。因为在NQ回答问题需要比回答琐事更深入的理解问题,所以基于这些数据,他们还组织了一场比赛,帮助推动计算机自然语言理解的研究进展。Leifeng.com
数据
NQ是首先使用自然发生的查询的数据集。它侧重于通过阅读整页来寻找答案,而不是从短段落中提取答案。为了创建NQ,他们从用户对谷歌搜索引擎的真实、匿名和聚合查询开始。然后,他们让播音员通过阅读整个维基百科页面来寻找答案,就好像这个问题是他们自己问的一样。评论员寻找包含推断答案所需的所有信息的长答案,以及用一个或多个单词简明地回答问题的短答案。在NQ语料库中标注的准确率高达90%。
NQ旨在使问答系统能够阅读和管理整个维基百科文章,这些文章可能包含也可能不包含问题的答案。首先,系统需要确定问题是否定义得足够好,可以回答——许多问题包含错误的假设,或者描述太模糊,无法简洁地回答。然后,他们需要确定维基百科页面的任何部分是否包含推断答案所需的所有信息。他们认为,长答案识别任务——找到推断答案所需的所有信息——比知道长答案后找到短答案需要更深层次的语言理解。
他们的论文《自然问题:问答研究的基准》已经发表在《计算语言学协会杂志》上,该论文对数据收集过程进行了全面的描述。要查看数据集中的更多示例,请访问NQ网站。
挑战
Natural Problems有一个7842个例子的盲测集,它的格式和公布的开发集完全一样。在此页面上创建一个配置文件,以便在测试集上运行模型并检查它们的性能。为了保持测试集的完整性,每个团队每周只允许提交一次。您可以在他们提供的200个样本开发集上运行测试。这个次数没有限制。
要提交模型,你应该创建一个Docker图像,并按照NQ Github页面上的说明将其上传到谷歌云存储中。
上传图像后,请登录此页面显示提交表单。选择要在NQ排行榜上显示的型号名称和要在个人主页上显示的标签。
他们希望NQ和相关挑战的发布能帮助你开发一个更有效和强大的QA系统。他们鼓励NLU社区参与,并帮助缩小目前最先进的方法和人类上限之间的巨大差距。请访问挑战网站查看排行榜并了解更多信息。
via:https://ai . Google blog . com/2019/01/natural-questions-new-corpus-and . html
Leifeng.com