本文提出了一种精细注释 Adversarial NLI 的方法,通过分析其数据集中不同方面的推理并使用手工编码,回答了一些问题,如哪种推理类型最常见,哪种模型在每种推理类型上的表现最好等,并希望这些注释可以使得对于 ANLI 训练的模型进行更细粒度的评估,更深入的了解模型失败和成功的原因,并且有助于在未来培训出更好的模型。
Oct, 2020
介绍了一个通过迭代对抗人与模型的程序收集的大规模 NLI 基准数据集,并展示了训练模型在这个新数据集上将导致在各种流行的 NLI 基准测试中的最新性能,同时还带来了更困难的挑战。数据收集方法可以在永不停止的学习场景中应用,成为 NLU 的移动目标,而不是一个很快就会饱和的静态基准测试集。
Oct, 2019
我们提出了 IndoNLI 数据集,这是第一个人类收集的适用于印度尼西亚语的 NLI 数据集。我们采用 MNLI 的数据收集协议,收集了近 18K 个由众包工人和专家标注的句子对。实验结果表明,在我们的数据中,XLM-R 的性能优于其他预训练模型。最佳性能仍然远低于人类性能(13.4%的准确度差距),表明此测试集具有特别的挑战性。此外,我们的分析显示,我们的专家标注数据比众包标注数据更加多样化,注释工件更少。我们希望这个数据集可以帮助加快印尼自然语言处理研究的进展。
Oct, 2021
采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见,这种方法比先前的去偏见努力表现更好,并且在推广到 12 个其他数据集时表现良好。
Apr, 2020
通过使用自然语言生成技术和人工智能协作来创造数据集,以及使用 WANLI 数据集训练模型取得了较高精度,具有以下关键词:众包、NLP 数据集、数据集创作、人工智能、自然语言推理
Jan, 2022
本文探讨如何通过对手博弈学习在自然语言推断任务中减弱假设偏见和虚假关联,结果表明通过对手博弈学习得到的表征可能更加公正且与任务精度下降不大。
Jul, 2019
本篇论文针对全球大部分语言缺乏可靠的自然语言推理(NLI)数据集这一问题,提出了中国的首个大规模 NLI 数据集,并采用语言学专家来对其进行注释。通过使用中文预训练模型,对数据集进行了基线测试,发现即使是表现最好的模型,其性能也远远落后于人类,因此这一具有挑战性的新资源有望帮助加速中文 NLU 的进展。该数据集是首个非英语语言的人采集的 MNLI 风格数据集。
介绍了 DocNLI 数据集,它是基于广泛的 NLP 问题构建的,涵盖了文本的多种类型和文档层级上的 NLI,而不是仅仅句子层级上的。实验表明,即使没有微调,预训练于 DocNLI 上的模型在流行的句子级基准测试中表现良好,并且推理到文档层级上的跨域 NLP 任务具有良好的泛化性能。
Jun, 2021
自然语言推理是语言模型的重要基准任务,在领域泛化上的问题中,我们通过生成多样化的合成 NLI 数据,使得模型在全新的下游测试环境中具有最佳的泛化性能。
Feb, 2024
我们提出了一种 NLP 技术,利用通用翻译数据集和知识蒸馏技术,通过两个预训练模型在源语言和目标语言上的表现实现了目标语言的句子关系推理,该技术在多个任务上展现了普适性。
Sep, 2023