Grow-and-Clip: 答案解释的简明信息蒸馏方法
使用基于句子的问题回答 (QA) 作为实验场景,我们提出了一种系统,该系统能够找到最强有力的支持证据以证明问题的答案,我们训练证据代理程序,以选择能够最具有说服力地证明给定答案的句子,这些证据不包括完整段落,我们发现,证据代理程序选择一般化的证据,这种方法提高了 QA 在健壮性方面的表现,证据代理程序选择的证据使人类能够在只利用大约 20%的完整段落的情况下回答问题,并且 QA 模型能够适用于更长的段落和更难的问题。
Sep, 2019
本文针对无数模型的集成、易受对抗攻击、敏感度等当前阅读理解系统的困境,提出基于知识蒸馏的方法,首先对纯知识蒸馏模型对答案跨度预测的有效性进行了论证,其次,提出两种创新方法,它们不仅惩罚了对混淆答案的预测,还利用了集成中蒸馏出来的对齐信息来指导训练。实验表明,我们的最佳学生模型在推理期间仅运行 12 倍的时间,与集成模型相比,在 SQuAD 测试集上仅有 0.4%的 F1 得分下降,在对抗 SQuAD 数据集和 NarrativeQA 基准测试中甚至胜过老师。
Aug, 2018
本文提出了一种新方法,通过筛选不会被回答的问题来提高问答系统的效率,这基于一个有趣的新发现:基于最先进的问答系统的答案置信度分数可以用仅使用输入问题文本的模型很好地逼近,这使得非答案置信度分数低于系统阈值的问题可以进行预先拦截。
Sep, 2021
本研究提出了一种新的口头对话问答任务,能够使问答系统对给定的语音话语和文本语料库建模,其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率,同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力,并在实验中取得了优异的性能表现。
Oct, 2020
利用 PubMed 作为可靠的医学研究文档集合,针对开放领域的问答设置,研究通过修改检索设置来提高问答系统性能的方法。结果显示,减少检索到的文档数量,偏爱近期和被引用次数较多的文献可以提高最终的宏观 F1 得分达到 10%。
Apr, 2024
本文提出了一种基于多任务学习的科学问题验证方法,该方法结合了信息概括、布尔问答、提取式问题回答和语义理解技术。该方法在欧洲 PMC 的 300 万篇医学和健康领域 OA 文章上,在 BERT 和 RoBERTa 问答模型的实验中,实现了 4%的平均误差率和 95.6%的 F1 分数。
Apr, 2022
我们提出了一个基于预训练多模态模型的证据检索和问答的两阶段框架来解决模型面临的两个主要挑战:利用压缩的证据特征会导致丢失细粒度信息以及提取问题关键特征时存在特征提取和问题之间的差距。我们的方法包括渐进证据精炼策略来选择关键证据、半监督对比学习训练策略扩展问题领域范围以及多轮检索和问答策略来处理多模态输入。通过大量实验证明了模型的有效性,在 WebQA 和 MultimodelQA 基准测试上取得了出色的性能。
Oct, 2023
该研究提出了一种基于 Query Focused Extractor (QFE) 模型的可解释的多跳问答系统,使用多任务学习并结合了问答模型进行证据点提取,实验结果表明该模型在 HotpotQA 和 FEVER 任务中达到了最佳证据提取效果。
May, 2019
本文提出了一种三阶段文件 QA 方法,包括从 PDF 中提取文本,从提取的文本中检索证据以形成良好的上下文,以及从上下文中提取 3 种类型的知识(抽取式、生成式或布尔式)。通过对 QASPER 的评估,DRC 系统在交付更优的上下文选择的同时,Answer-F1 达到了 +7.19 的提高。结果表明,DRC 在科学文献 QA 中有很大的亮点。
Oct, 2022
通过强化学习从人类偏好中得出支持性证据,训练生成回答并支持其声称的 “开放式书目” QA 模型。该模型能够从搜索引擎中找到的多个文档或单个用户提供的文档中提取支持证据。通过在 NaturalQuestions 和 ELI5 数据集的子集中进行的人类评估,该模型的响应在这两个子集中 80%和 67%的时间内达到高质量水平,但并非所有声称都被支持的证据是正确的。
Mar, 2022