面向开放域段落检索的句子感知对比学习
本研究展示了如何使用密集向量表示实现开放领域的问答,通过一个简单的双编码框架,通过从一小部分问题和段落中学习嵌入来实现检索,并在多个开放域QA基准测试中超越了传统的基于TF-IDF或BM25的方法,为终端QA系统的最新性能奠定了基础。
Apr, 2020
研究使用生成模型在开放领域问答中的表现,发现利用文本段落检索可以显著提高性能,证明生成模型擅长聚合和组合多个段落的证据,同时在 Natural Questions 和 TriviaQA 开放式基准测试中取得最好的结果。
Jul, 2020
本研究对Karpukhin等人于2020年提出的基于稠密编码的全域问答模型(DPR)进行了复制研究,其中发现原作者低估了BM25基准检索的有效性。我们通过改进的答案跨度评分技术,使用与原论文相同的模型获得更好的端到端问题答案准确性。
Apr, 2021
本文提出了coCondenser方法,将Condenser预训练架构与无监督语料级对比损失相结合,减轻了密集检索器对大规模训练数据和数据工程的依赖,并通过实验表明,该方法具有与RocketQA相当的性能。
Aug, 2021
该研究提出了一种利用查询中心和段落中心相似性关系(称为PAIR)进行密集段落检索的新方法,同时引入了高质量的伪标记数据,通过两阶段训练过程,显著提高了检索性能。
Aug, 2021
本文介绍了一种基于无监督预训练的 ODQA 方法,通过 recurrent span retrieval 从文档中创建伪例子进行对比学习,控制 pseudo 查询和相关段落之间的术语重叠,从而允许模拟它们之间的词汇和语义关系,得到命名为“Spider”的模型,具有出色的性能,且不需要任何有标签的训练数据。
Dec, 2021
本文研究了在自然语言处理中,模型在面对扰动时进行一致性预测的能力,提出了一种基于人工标注和大型语言模型生成的问题集,以改善现有模型在开放域问答任务上的表现,对广泛使用的密集式段落检索器模型(DPR)进行了改进,并通过对比性损失和数据增强技术提高了DPR的对比一致性,而不影响其在标准测试集上的准确度。
May, 2023
本文提出了一种基于短语检索的直接预测答案方法,利用对比学习策略,将上下文的连续对话转化为一个单一的子任务,并在两个ODConvQA数据集上进行了验证,结果表明相较于检索器-阅读器方法,本方法具有显著优势。
Jun, 2023
Topic-DPR是一种基于主题的密集段落检索模型,通过对多个基于主题的提示进行优化和对比学习,使表示与其主题分布对齐,提高空间均匀性,并引入了一种新的正负采样策略来提高检索效率。实验证明,该方法超过了之前最先进的检索技术。
Oct, 2023