半百万类星体(HMQ)目录
该研究提出了两个数据集,用于评估自然语言查询的理解和从大量文本语料库中提取答案的系统。Quasar-S 数据集由 37000 个填空式查询构成,Quasar-T 数据集由 43000 个开放领域的问答问题和它们的答案组成。我们将这些数据集作为事实型问题回答的两个相关子任务的挑战,并评估了几个基线模型,并显示它们在 Quasar-S 和 - T 方面落后于人类表现 16.4%和 32.1%。
Jul, 2017
通过从科学文献中提取的信息,利用科学问答对生成的自动评估框架 SciQAG 表明,大型语言模型可用于从文献中提取关键知识的高质量科学问答对。
May, 2024
本文在 DBLP 学术知识图谱上创建了一个问答数据集,其中包括 10,000 个问题答案对以及相应的 SPARQL 查询,可在 DBLP KG 上执行以获取正确答案。DBLP-QuAD 是最大的学术问答数据集。
Mar, 2023
通过提出一种新的框架,称为近距离问答(Proximity QA),我们可以增强多模态大语言模型在深度感知和相对距离分析方面的性能。
Jan, 2024
本研究提出了一种基于对话的问答数据集 QuAC,其包含 14K 个信息寻求问答对话(共 100K 个问题),并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明,QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义,还报告了许多参考模型的结果,包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1,这表明还有很大的未来工作空间。
Aug, 2018
本文提出两个新的相关资源,以促进对小学科学考试中一般知识推理过程的建模。这些资源包括经过筛选的事实表和大量的众包多选题,通过构建众包注释任务,我们获得了问题与表格之间的隐式对齐信息。我们认为,这些资源不仅对从事问答研究的人有用,也对调查诸如信息提取、问题解析、答案类型识别和词汇语义建模等各种其他应用的人有用。
Feb, 2016
介绍了第一个开放领域的定性关系数据集 QuaRTz,用于推理文本定性关系。QuaRTz 包含一般的定性陈述,结合 3864 个众包定位问题,对应的是类似 “Billy 涂有比 Lucy 更低 SPF 的防晒霜。谁的皮肤最好受保护?” 的问题,以及被比较对象的注释。与以往的数据集不同,一般知识是文本而不是固定的关系集,并且在新颖环境中测试系统理解和应用文本定性知识的能力。实验结果表明,最先进的结果比人类表现低得多(20%),这是自然语言处理社区的一个开放挑战。
Sep, 2019
本研究介绍了 Stanford Question Answering Dataset (SQuAD),一种包含超过 100,000 个问题的阅读理解数据集,旨在研究回答这些问题所需要的类型推理方式,研究使用依赖和组成树建立了强大的逻辑回归模型,并在数据集上获得了 51.0% 的 F1 分数。
Jun, 2016
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016
本研究主要介绍了一个新的基于 HeySQuAD 数据集的 SQA 系统基准测试方法,该方法使用了包含 76k 个人类口述问题和 97k 个机器生成问题的问答数据集,证明了使用转录的口述问题进行训练可以显著提高系统的性能 (12.51%),具有很高的实践价值。
Apr, 2023