NorQuAD: 挪威问答数据集
本文提出了 JaQuAD 数据集,它是一种由人类注释的日语问答数据集,用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调,测试数据集上的 F1 得分为 78.92%,EM 为 63.38%。
Feb, 2022
我们介绍了一个众包的波斯语阅读理解数据集,包括 80,000 个问题和答案,其中 25%的问题是具有对抗性无法回答的,该数据集被用于建立波斯语阅读理解和提供基线结果的研究。
Feb, 2022
本文介绍了一种名为 FQuAD 的法语本地阅读理解数据集,并成功训练出基线模型,通过 F1 得分和准确匹配比率很好地回答了问题。同时,研究人员为追踪法语问答模型的进展提出了排行榜。
Feb, 2020
本研究介绍了 Stanford Question Answering Dataset (SQuAD),一种包含超过 100,000 个问题的阅读理解数据集,旨在研究回答这些问题所需要的类型推理方式,研究使用依赖和组成树建立了强大的逻辑回归模型,并在数据集上获得了 51.0% 的 F1 分数。
Jun, 2016
本文介绍了一个非英语机器阅读问答研究的主要挑战:缺乏注释数据集。我们随后提出一个德语 QA 数据集(GermanQuAD),总结经验教训,并评估 QA 问答对重组的效果,以加速注释过程。通过 GermanQuAD 数据训练,提出的 QA 模型明显优于多语言模型。最后,将数据集适应于 DPR 语言,训练了第一款非英语 DPR 模型。
Apr, 2021
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016
该研究介绍了韩语问答数据集(KorQuAD),这是一个用于机器阅读理解的大型韩语数据集,有助于自动回答语音机器人和自动化客户支持系统的开发。
Sep, 2019
本研究提出了一种基于对话的问答数据集 QuAC,其包含 14K 个信息寻求问答对话(共 100K 个问题),并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明,QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义,还报告了许多参考模型的结果,包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1,这表明还有很大的未来工作空间。
Aug, 2018
本文研究自然语言理解(NLU)任务,通过研究 Quora 数据集中的重复问题检测,进行了数据集的广泛探索,采用了多种机器学习模型,包括线性和基于树的模型。我们最终发现,一个简单的连续词袋神经网络模型具有最佳性能,优于更复杂的循环和注意力模型。我们还进行了误差分析,并发现数据集标签中存在一定的主观性。
Jul, 2019
本文提出了一种基于神经信息检索和重新排名的自动问答系统,利用包含 6.3M 问题和回答对的数据库,实现了开放域问答并超越了传统的非结构化文本或图形搜索方法,并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优,该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。
Mar, 2023