开放域问答中通用化的挑战

ACLSep, 2021

Challenges in Generalization in Open Domain Question Answering

Linqing Liu, Patrick Lewis, Sebastian Riedel, Pontus Stenetorp

TL;DR研究了开放域问答中新颖测试问题和训练问题之间的性能差异，并通过三个不同级别和类型的一般化问题的类别进行了评估，发现目前的最强模型在复合一般化和新实体一般化方面的性能比全测试集差 13.1％和 5.4％。此外，本文还表明虽然非参数模型可以相对良好地处理包含新颖实体的问题，但对于需要合成一般化的问题，则非常困难。

Abstract

Recent work on open domain question answering has shown that there is a large discrepancy in model performance between novel test questions and those that largely overlap with training questions. However, it is unclear which aspects of novel questions make them challenging. Drawing upo

open domain question answering generalization parametric and non-parametric models novel-entity generalization compositional generalization

发现论文，激发创造

开放领域问答数据集中的问题与回答测试训练重叠

本文研究开放领域问答模型的能力，发现许多测试集答案和训练集中的答案重复，只有部分问题可以从训练集中得到近似的问题，最终发现简单的最邻近模型表现比 BART 模型更好，证明训练集记忆在问答领域中发挥了重要作用。

Aug, 2020

跨域问答泛化学习

通过结合提示方法和线性探针 fine-tuning 策略，我们提出了一种新颖的方法，可以有效提高生成模型和判别模型的泛化能力，特别在跨领域问题回答 (QA) 任务上表现优异。

May, 2023

缓解上下文记忆以提高开放领域问答的泛化能力

Open-domain Question Answering research investigates the generalization performance of a retrieval-augmented QA model, proposing Corpus-Invariant Tuning as an effective training strategy to mitigate knowledge over-memorization and achieve better generalizability.

Apr, 2024

知识图谱问答数据集及其通用性：对未来研究是否足够？

该研究分析了 25 个已知的知识图谱上的 5 种不同知识图谱的数据集以及现有方法对于知识图谱问答的泛化能力不足的问题，提出了一种无需成本和手动努力就能重新拆分 KGQA 数据集以评估泛化能力的缓解方法，并在三个数据集上进行了实验证明了其有效性。

May, 2022

超越 I.I.D.: 基于知识库的问答的三个泛化层次

本文研究在知识库问答（KBQA）中，为了增强模型的泛化能力，建议模型应具有三个内置泛化层面：i.i.d、组合和零样本，并提出一种新颖的基于 BERT 的 KBQA 模型，此外构建和发布一个高质量的数据集 GrailQA，为三个泛化层面提供评估设置。实验证明，预训练的上下文嵌入（如 BERT）在 KBQA 的泛化中起着重要的作用。

Nov, 2020

简单实体中心问题挑战密集检索器

本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题，并探讨了两种解决方案：第一种解决方法是数据扩充无法解决广义化问题，第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。

Sep, 2021

测量组合泛化能力：一种基于真实数据的综合方法

本研究提出了一种基于分子分散度最大化和原子分散度最小化的方法去构建实际应用的语言理解数据集，并通过分析三个多层次深度学习架构的表现来量化比较这种方法与其他构建复合语言理解测评基准的方法，研究表明现有的机器学习方法在复合语言理解上处于局限性表现，且都表现出惊人强的负相关性，研究结果可应用于构建和优化大规模自然语言处理应用系统。

Dec, 2019

测验设计任务：帮助教师使用自动化题目生成器创建测验

本篇研究旨在利用标准化的 NLG 指标来检测 QGen 模型所带来的实际效果，并以教师自动生成阅读理解测试为例进行实际应用测试。虽然我们发现近期 QGen 取得了显著进展，但最佳模型仅得到了 10 名教师中的 68.4％同意接受的问题，同时也发现需要新的自动度量标准来指导 QGen 研究前进。

May, 2022

开放领域问答中领域自适应挑战与干预：调整或注释？

研究开放领域问答（ODQA）中，当应用于广泛不同的领域时，此类模型的稳健性和应用性能。该研究提出了一个更现实和具有挑战性的领域转移评估环境，并研究了端到端的模型性能。他们发现，不仅模型在推广方面表现出失败，且高检索分数通常也不能提供准确的答案预测。最后，研究提出并评估了多种干预方法，其提高了端到端答案 F1 得分，最多可达 24 个点。

Dec, 2022

向实体为中心的开放域问题生成提问

我们引入一个称为 “实体中心问题生成”（ECQG）的新任务，旨在从实体的角度生成问题。为了解决 ECQG，我们提出了一个连贯的基于 PLM 的框架 GenCONE，其中包含两个新颖的模块：内容聚焦和问题验证。我们还构建了一个大规模的开放领域数据集，以支持这个任务。我们的大量实验证明，GenCONE 在生成高质量问题方面显著且一致地优于各种基线方法，而两个模块在此过程中是有效且互补的。

Oct, 2023