使用检索边际化减轻多文档问答中虚阴性情境
本文提出了一种新的 open domain question answering 方法,利用问题 - 回答对来同时学习 retriever 和 reader,将 Wikipedia 中的证据检索视为潜在变量,并通过 Inverse Cloze Task 进行预训练。我们的方法在五个 QA 数据集上进行测试,表明在用户真正寻求答案的数据集上,学习检索至关重要,完全匹配方面的得分比传统的 IR 系统(如 BM25)高达 19 个点。
Jun, 2019
该研究探讨了答题所需的最小上下文,并提出了一种简单的句子选择器用于选择最小的句子来喂养问答模型,以实现训练和推理时间的显著减少并提高精度,并且更加鲁棒。
May, 2018
本文研究了现有检索增强语言模型在面对包含错误信息的检索文档时的健壮性问题,并通过在微调和上下文几次学习中显式微调鉴别器或提示来提高检索增强语言模型对错误信息的容忍度,并揭示了有关在上下文学习过程中将微调模型决策与合并的最佳路径。
May, 2023
使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时,检索到的信息能够提高模型的性能,并且不会损害性能。该研究分析了五个开放领域问答基准,并提出了两种方法以减轻性能下降问题。
Oct, 2023
本文通过集成检索模型和利用多个预训练语言模型及去噪防护,开发了一种新型数据增强框架,以捕获未标记的策略文件中的相关文本段,并扩展训练集中的正面示例。使用此增强数据,该研究在 PrivacyQA 基准测试中将现有水平提高了 10% F1,实现了 50% 的新水平。(其中,F1 是一种综合度量,用于评估二元分类器的准确性。)
Apr, 2022
本研究针对基于检索的开放领域问答系统,探究多语言环境下文献信息不一致的问题,分析多语言开放领域问答模型的检索偏差,探讨文化差异和信息不一致性对模型的影响。
May, 2022
本文提出了一种以问答对为基础的编码 - 解码模型,通过该模型的预训练策略,能够在单跳及多跳问题上达到强大性能,并进一步提高了对模型的解释和控制能力,缩小了与段落检索系统之间的性能差距。
Apr, 2022
该研究提出了一种新的 QA(Question Answering)模型范式,通过引入反事实数据增强的方式,使模型能够预测基于给定语境知识和基于参数化知识的两种答案,从而改善模型的鲁棒性和生成有用的无关答案。
Nov, 2022
通过研究大型语言模型的自身限制以及外部信息检索的有效性,本研究构建了一个新的问答数据集 WiTQA,以探索实体和关系的组合对于信息检索和知识回忆方面的影响,从而提出了一个基于实体和关系频率的自适应检索系统。
Feb, 2024
该论文提出了一种用于 COQA 多语言问题解答的系统,该系统使用多种模型变体在数据增强、语段检索和答案生成三个主要组件上进行了研究,并结合语言模型预训练和数据增强等方法有效提高了针对低资源语言的表现。
May, 2022