非自然语言推论
本文介绍了不确定的自然语言推断(UNLI),它是自然语言推断(NLI)的一种改进,通过预测主观概率评估来预测结果,利用概率评估重新标记了部分 SNLI 数据集,并使用现有的分类标签化的 NLI 数据进行预训练,最终模型展示了超越分类标签化的 NLI 任务的更微妙推断的人类表现水平。
Sep, 2019
通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果,我们提供了证据表明,最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性,这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12.92% 和 23.71%。
Jan, 2024
通过综合评估,本研究在低资源语言(如孟加拉语)的自然语言推理任务中评估了知名大型语言模型和最先进模型的性能,发现虽然大型语言模型在少样本情况下可以达到与微调后最先进模型相媲美或优越的性能,但需要进一步研究来提高我们对大型语言模型在类似孟加拉语等资源有限的语言中的理解。该研究强调了在不同语言环境中探索大型语言模型能力的持续努力的重要性。
May, 2024
本研究探讨了如何在训练过程中利用句法信息来提高预训练模型 BERT 在自然语言推理上的表现,经过尝试,通过主语 / 宾语倒装能将模型在控制的测试中的准确率从 0.28 提升至 0.73,而对 MNLI 测试集影响不大,表明数据增强能帮助 BERT 招募抽象的句法表示从而提升模型的表现。
Apr, 2020
研究自然语言推理 (NLI) 模型的鲁棒性,特别关注三个因素:不敏感、极性和未见过的词汇。结果发现,所有模型在处理未见过的反义词语上表现都欠佳,并且容易受到单词和标签之间的简单统计相关性的影响。
May, 2018
通过研究自然语言推断中机器学习模型的三种不可靠启发式方法:词汇重叠启发式,子序列启发式和成分启发式,我们引入了一个名为 HANS 的数据集,以确定模型是否采用了这些启发式,并发现 BERT 等最先进的模型在 HANS 上表现非常差,说明 NLI 系统仍有很大改进空间。
Feb, 2019
探究利用自然语言解释来监督模型的注意力权重,促使其更集中于解释中的关键词,从而提高模型性能,此方法的实验表明,这种改进可以适用于其它 NLI 数据集
Apr, 2021
本文旨在研究表明了深度学习在自然语言处理方面的取得的成功,然而,对于它们能否展示出人类一样具有自然语言理解的概括能力的范围还不清楚。我们在自然语言推理领域探讨了这个问题,侧重于推理关系的可传递性,这是一种系统地进行推理的基本属性。结果表明,目前的自然语言推理模型无法很好地完成传递性推理任务,这表明它们缺少从提供的训练示例中综合推理的概括能力。
Jan, 2021
通过强制无效化模型对置换序列的识别,我们提出一种简单的方法,叫做 Forced Invalidation(FI),以帮助保留单词序列中的重要信息,从而显著提高了模型对于单词序列的敏感性。我们在多个英文 NLU 和基于 QA 的任务上对 BERT,以及基于注意力机制的模型进行了广泛的评估。
Apr, 2023