CLIFT：分析临床领域问答模型的自然分布转变

Oct, 2023

CLIFT：分析临床领域问答模型的自然分布转变

CLIFT: Analysing Natural Distribution Shift on Question Answering Models in Clinical Domain

Ankit Pal

TL;DR本文介绍了一个名为 CLIFT（Clinical Shift）的新测试平台，用于临床领域的问答任务。通过对提出的测试平台进行综合实验研究，评估了几个问答深度学习模型。尽管在原始测试集上取得了令人印象深刻的结果，但在新的测试集上性能下降，显示出分布偏移。我们的研究结果强调了在分布偏移条件下提高临床领域模型鲁棒性的必要性和潜力。该测试平台为追踪该方向的进展提供了一种方式，同时也强调了采用考虑对自然分布偏移的鲁棒性的评估指标的必要性。我们计划通过添加更多样本和模型结果来扩展语料库。完整的论文和更新的基准测试结果可在 github.com/openlifescience-ai/clift 获取。

Abstract

This paper introduces a new testbed clift (Clinical Shift) for the clinical domain question-answering task. The testbed includes 7.5k high-quality question answering samples to provide a diverse and reliable benc

clift question-answering deep-learning models distribution shift robustness

发现论文，激发创造

自然分布偏移对问答模型的影响

为了测试问题回答系统的泛化能力，我们建立了四个新的测试集，并发现存在一定适应性过度拟合。此外，我们在自然分布转移方面测试了模型，结果发现人类能力相比 SQuAD 模型有明显优势，同时强调需要采用能够考虑自然分布转移的评估指标。

Apr, 2020

生成数据增强利用 LLMs 改善问答中的分布鲁棒性

通过实验证明生成数据对阅读理解数据集的扩充可以更好地提高对自然分布变化的鲁棒性。

Sep, 2023

探索问答模型的分布稳健性

在问答模型的分布稳健性中，我们进行了一项大规模的实证评估，研究了超过 350 个模型和 16 个问答数据集的情况，发现在很多情况下，模型的变化并不影响稳健性，而在分布内性能单独决定着分布外的性能，并且我们的发现表明，零样本和上下文学习方法比完全微调的模型更能抵御分布变化，少样本提示微调模型表现出比少样本微调跨度预测模型更好的稳健性，而参数高效和稳健性增强的训练方法对稳健性没有显著的改进。

Oct, 2022

开放领域问答中领域自适应挑战与干预：调整或注释？

研究开放领域问答（ODQA）中，当应用于广泛不同的领域时，此类模型的稳健性和应用性能。该研究提出了一个更现实和具有挑战性的领域转移评估环境，并研究了端到端的模型性能。他们发现，不仅模型在推广方面表现出失败，且高检索分数通常也不能提供准确的答案预测。最后，研究提出并评估了多种干预方法，其提高了端到端答案 F1 得分，最多可达 24 个点。

Dec, 2022

预训练语言模型在测试时解决分布转移问题

本研究提出了一种使用未标记数据的自适应方法 (MEMO-CL)，利用最新的无监督技术来最小化在测试时由于分布变化导致的测试性能下降问题，通过对单个测试样本中的一批增强样本进行处理，实现了无监督、领域不可知、容易实施且无需额外数据的自适应技术，相对当前测试时适应基线所取得的进展为 3%。

Dec, 2022

机器学习模型在实际中的稳健性、评估与适应性

通过培训算法来提高对于机器学习领域的可靠性，从而应对领域的变化，提高算法的性能，预测其表现并轻量级适应应用领域。

Mar, 2023

衡量自然语言处理模型对领域转移的鲁棒性

本文就自然领域转变设置中，fine-tuned model 和 few-shot learning model 的 domain robustness challenge 进行了研究，并提出 Source Drop (SD) 和 Target Drop (TD) 两种观点进行考虑。我们发现 DR challenge 在 fine-tuned model 和 few-shot learning model 中都存在，但在后者中不太显著。此外，本研究还发现增加 fine-tuned model 的大小可以提高模型的性能，特别是在分类方面。

May, 2023

CliniQG4QA：用于临床问答领域自适应的多样化问题生成技术

研究提出了一种名为 ClinQG4QA 的框架，该框架借助问答生成来合成新的临床背景下的 QA 对，提高 QA 模型的性能，同时还引入了 seq2seq-based 问题短语预测模块来扩大生成的多样性。该方法在实验中表现出了显著的精度提升（最高达 8%），而 QPP 模块对此有着重要作用。

Oct, 2020

通过测试时间自适应实现对分布偏移的鲁棒问答：一项实证研究

本研究旨在探讨如何通过测试时间适应（TTA）方法，提高已部署的问题回答（QA）模型的性能，评估了多种 TTA 方法（包括一种新方法 - OIL）在一个统一的 QA 评估基准（COLDQA）下的鲁棒性，研究表明，在已进行鲁棒性调优（RT）之后，应用 TTA 方法可以显著提高 QA 模型的性能。

Feb, 2023

话语解析中真正重要的变化：估计领域漂移对解析器错误的影响

本文提出了一种用于文本学习在训练分布和测试分布不同的情况下的模型泛化能力的度量方法，并通过大规模经验研究在 6 种不同数据集上验证了该方法的有益性。

Mar, 2022