领域转移下的选择性问题回答
本文提出了一种可靠的视觉问答方法,通过多模态选择函数对预测的答案进行准确性估计,分析了 VQA 模型的覆盖率与风险之间的权衡;提出了一种有效的可靠性指标,相对于提供错误的答案,强制要求 VQA 模型进行更多的弃权表明其不知道问题的答案。
Apr, 2022
本文提出了一个使用 Learning from Your Peers 方法的多模式选择函数,以在不同分布的数据下实现选择性视觉问答,并在各种模型中取得了不错的表现。
Jun, 2023
研究开放领域问答(ODQA)中,当应用于广泛不同的领域时,此类模型的稳健性和应用性能。该研究提出了一个更现实和具有挑战性的领域转移评估环境,并研究了端到端的模型性能。他们发现,不仅模型在推广方面表现出失败,且高检索分数通常也不能提供准确的答案预测。最后,研究提出并评估了多种干预方法,其提高了端到端答案 F1 得分,最多可达 24 个点。
Dec, 2022
在这项研究中,我们研究了 LLMs 在提供不充分或不正确的上下文时放弃回答具有环境依赖性的科学问题的能力。通过在四个 QA 数据集上进行实验,我们展示了性能在模型之间、提供的上下文类型之间以及问题类型之间存在巨大的差异。我们的分析还突显了放弃回答表现对 QA 任务准确性的意外影响,表明需要改进 QA 数据集的设计和评估方法,以更有效地评估模型放弃回答的正确性和下游影响。
Apr, 2024
提出一种将问题回答建模为一种对齐问题的结构支持向量机方法,通过将问题和上下文分解成基于语义角色的单元,并将问题与上下文的子图进行对齐以找到答案,该模型可用于跨领域问题回答,且通过对齐得分派生出的限制使模型更加鲁棒。
Apr, 2020
为了测试问题回答系统的泛化能力,我们建立了四个新的测试集,并发现存在一定适应性过度拟合。此外,我们在自然分布转移方面测试了模型,结果发现人类能力相比 SQuAD 模型有明显优势,同时强调需要采用能够考虑自然分布转移的评估指标。
Apr, 2020
本文提出一种 “Post-Abstention” 任务来增加自然语言处理系统的覆盖率并保持准确度,通过对 11 个 QA 数据集的全面实验证明,该方法可以显著提高性能指标。
May, 2023
本文提出一种采用对抗训练框架来解决深度学习中新领域适应问题的方法,将传统 QA 模型和判别器组合,以对抗的方式进行训练,从而实现 QA 模型学习到领域不变特征,并在 MRQA Shared Task 2019 中取得了优于基线模型的性能。
Oct, 2019
本文研究开放领域问答模型的能力,发现许多测试集答案和训练集中的答案重复,只有部分问题可以从训练集中得到近似的问题,最终发现简单的最邻近模型表现比 BART 模型更好,证明训练集记忆在问答领域中发挥了重要作用。
Aug, 2020
本研究提出了一种名为对比领域自适应问答(CAQA)的新型领域适应框架,该框架结合了问题生成和域不变学习技术,用于在文本语料库受限的情况下回答域外问题,并且相较于现有技术取得了显著的效果改善。
Aug, 2021