我们研究了最先进的 NLI 模型是否能够覆盖部分输入基线所做出的默认推断,并引入一个由紊乱的前提组成的评估集来检查 RoBERTa 模型对编辑内容的敏感性。我们的结果表明,尽管训练数据集存在技术性问题,但 NLI 模型仍然能够学习到依赖于上下文的条件和推理能力。
May, 2022
该文探究自然语言推理训练模型中的偏见问题,提取假设中的短语作为人工模式,展示它们对于特定标签的强烈指示作用,并探索缓解假设 - 唯一偏见的多种方法,包括下采样和对抗训练等。
Mar, 2020
研究机器学习模型在自然语言推断(NLI)中学习数据集人工特征的问题,并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。
Dec, 2022
提出两种概率方法以构建更稳健的模型,让其更好地跨数据集进行传递,解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练,并在不含偏差数据集上进行测试,结果表明这些方法能够使模型更加稳健,相比基线模型在 12 个自然语言推理数据集中,有 9 个传输效果更好。
Jul, 2019
在十个不同的自然语言推理数据集上进行实验后,我们发现使用一种仅基于假设的模型,即使忽略上下文,也可以显著优于大多数 NLI 数据集的大多数基线,分析表明统计异常性可能允许模型在某些数据集中执行 NLI,超出不带上下文访问时本应实现的界限。
May, 2018
本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现,分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差,以及评估该方法的有效性。
Feb, 2023
该研究通过大规模数据集研究了自然语言推理,并揭示了某些语言现象与推理类别高度相关的结论,进一步表明自然语言推理模型的成功被高估了,这个任务仍是一个难题。
Mar, 2018
数据集中的伪相关性对于 NLP 模型在未见数据上的泛化性造成了影响。我们提出了一种新的评估方法,Counterfactual Attentiveness Test (CAT),通过使用反事实推理来检测模型的注视变化。 CAT 的结果显示,对这种相关性的依赖主要受数据影响,并且通过引入反事实推理可以改善模型的注视能力。
Nov, 2023
本研究发现,通过常规众包技术建立的反事实数据增强自然语言阅读理解数据集,不利于训练模型的泛化性和鲁棒性,并且在成本考虑上使用此种方法带来的收益很少。
Oct, 2020
采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见,这种方法比先前的去偏见努力表现更好,并且在推广到 12 个其他数据集时表现良好。
Apr, 2020