问答数据集让模型学到了什么?
本文通过定量和定性分析现有端到端神经模型在斯坦福问答数据集上的结果,旨在理解和比较其特性,以迈向实现在多个领域中的泛化能力。研究发现,预测错误反映了某些模型特定偏差,本文对此进行了进一步讨论。
Jun, 2018
本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现,通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能,并发现 RoBERTa 和 BART 表现最佳。
Oct, 2021
该论文研究基于对话问答模型中标准数据集对模型的语义理解能力的反应度以及对话内容对模型回答问题的影响,并指出了 QuAC 和 CoQA 两个常用数据集的一些 潜在问题及其存在的偏见。
Sep, 2019
在 Machine Reading for Question Answering (MRQA) 2019 shared task 中,我们通过将 18 个不同的 question answering 数据集调整并统一格式来评估阅读理解系统的泛化能力。参赛的 10 个团队尝试了不同的想法,如数据采样、多任务学习、对抗训练和集成学习等,在 12 个被隐藏的测试数据集上,最好的系统平均 F1 分数为 72.5,比基于 BERT 的初始得分高了 10.7 个绝对点。
Oct, 2019
本文研究阅读理解(RC)数据集之间的通用性和现有数据集对提高新数据集表现的贡献,使用 Bert 等上下文表示方法,证明在一个或多个数据集上训练,并在目标数据集上进行转移学习可以显著提高 RC 表现,同时发现在多个来源 RC 数据集上训练可以降低新 RC 数据集的示例收集成本,并提出了基于 MultiQA 的模型,取得了五个 RC 数据集的最先进的表现。
May, 2019
本文调查了在深度学习时代发布的有影响力的问答数据集,并介绍了文本问答和视觉问答两个最常见的问答任务,涵盖了最具代表性的数据集,并提出了当前的一些 QA 研究挑战。
Jun, 2022
文章研究了问题回答领域(Question Answering)中各种算法模型以及增强数据方法,提出了基于 Attention-over-Attention 等方法的组合以及数据增强和集成策略,可在 SQuAD 等基准数据集上取得超人的表现。但在最新的自然问题基准数据集上,相对简单的 BERT 迁移学习方法取得了超过先前表现最优系统 1.9 F1 点的优异表现,并且添加集成策略进一步提高了 2.3 F1 点。
Sep, 2019
该研究提出了基于评论的问答系统,并介绍了一个新的数据集和结合信息检索和阅读理解模型的方法以生成答案。研究评估了许多答案生成模型并提出了强有力的基线,证明了这个新任务的挑战性。
Aug, 2019
本文提出了一种基于神经信息检索和重新排名的自动问答系统,利用包含 6.3M 问题和回答对的数据库,实现了开放域问答并超越了传统的非结构化文本或图形搜索方法,并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优,该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。
Mar, 2023