保持中立:使用自然语言推断改进生成
该论文提出了一项新的任务,即通过一个源句子生成一个蕴含的句子,使用带有关注力的 LSTM 模型对斯坦福自然语言推理语料库的蕴含对进行训练,在手动注释的测试集上,82% 的生成句子是正确的,还使用递归方法生成自然语言推理链,从而自动构造了一个蕴含图。
Jun, 2016
本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用,并提出了一个新的自然数据集 MoNLI,其中集中了词汇蕴涵和否定的相关内容,通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果,同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。
Apr, 2020
通过加上自然语言解释,人工智能模型在各种任务中有了显著提升,但在遇到对抗性输入时,效果下降。本文研究了如何通过加入自然语言解释来提高模型对七个对抗性和具有挑战性的自然语言推理数据集的鲁棒性,并提出了 ChatGPT 的几个人工生成的自然语言解释来产生更多自然语言解释的新方法,表现更好。通过对五种常见的大语言模型进行评估,我们发现 ChatGPT 的几个人工生成的自然语言解释的 X-ICL 方法比 ICL 方法提高了 6% 以上。此外,我们还发现之前能有效提高 ICL 性能的提示选择策略,在鲁棒性评估中并不具有与 X-ICL 范式相称的效果。
Nov, 2023
利用自然语言推断技术探讨生成持续一致人格的对话,提出基于强化学习框架使用从响应 - 人格对得到的自然语言推断信号作为奖励来生成至关一致的对话,并通过对话者的关注机制编码器 - 解码器来生成基于人格的响应,使用对抗训练的自然度模块和基于自然语言推断的一致性模块来评估生成的响应的一致性,实验表明该方法优于强大的生成基线,特别是在生成响应的人格一致性方面。
Nov, 2019
我们研究了自然语言推理 (NLI) 在自动化需求工程任务中的应用。我们集中在需求分类、需求规范缺陷的识别以及利益相关者需求冲突的检测三个任务。通过在不同学习设置下进行的实验,我们明确证明了我们的 NLI 方法在需求规范分析方面超越了传统的 NLP 方法以及基于大型语言模型和聊天机器人模型的其他方法。此外,我们分享了在学习设置方面的经验教训,使 NLI 成为自动化需求工程任务的合适方法。
Apr, 2024
我们提出了一种 NLP 技术,利用通用翻译数据集和知识蒸馏技术,通过两个预训练模型在源语言和目标语言上的表现实现了目标语言的句子关系推理,该技术在多个任务上展现了普适性。
Sep, 2023
探索事实性与自然语言推理之间的关系,并引入 FactRel 注释方案来模拟事实性推理,分析表明,事实性支持对和事实性削弱对的大部分情况不构成自然语言推理的蕴含或矛盾关系,这表明事实关系更适合分析媒体话语;在新数据集上进行了对比分类模型的实验,并发现在某些情况下,基于注释数据集使用 GPT-4 生成合成数据可以提高性能,而使用 GPT-4 进行少样本学习的结果与在标注数据集上训练的中型语言模型(DeBERTa)相当强大,这些结果表明此任务在世界知识和高级推理能力上的基本依赖关系。
Jun, 2024
本文提出一种使用简单 LSTM 架构的零样本句子对标记来生成自然语言推理的 token 级解释的方法,并使用 SNLI 数据集进行了实验,与黑盒方法相比,白盒方法的匹配精度较低。
Apr, 2019
本文指出自然语言推理领域在评估模型推理推理能力方面所使用的标准三分法存在着缺陷,尤其是与人类推理过程的案例感知能力的差异。作者还发现现有的自然语言推理标注数据集中的一种中性标签处于低效的状态,且存在解释不一致的情况,而至少一种重要的得分中性标签经常被忽略。我们比较了处理不同标注者之间的分歧的方法,并确定了最近的自然语言推理(NLI)数据集中设计了一个基于有问题的形式操作的注释者研究的缺陷。本文的发现强调了需要更加精确评估框架来评估 NLI,我们希望引发 NLP 社区的进一步讨论和行动。
Jun, 2023