通过输入干预对话式问答分析语言模型的语义忠实度

Dec, 2022

通过输入干预对话式问答分析语言模型的语义忠实度

Analyzing Semantic Faithfulness of Language Models via Input Intervention on Conversational Question Answering

Akshay Chaturvedi, Swarnadeep Bhar, Soumadeep Saha, Utpal Garain, Nicholas Asher

TL;DR本研究考虑了三个 Transformer 模型 (BERT，RoBERTa 和 XLNet)，并调查它们在语义上的表现。通过删除或否定某些单词，我们发现这些模型在语义上的准确性下降，而我们提出的基于干预的训练方案可以显著提高这种准确度。但是，我们还发现这种训练并不能改善模型在逻辑否定，谓词 - 论元结构等方面的不足。此外，我们还测试了 InstructGPT 的效果，发现虽然它在谓词 - 论元结构任务上表现得很好，但对删除和否定干预响应不佳。

Abstract

transformer-based language models have been shown to be highly effective for several NLP tasks. In this paper, we consider three transformer models, BERT, RoBERTa, and XLNet, in both small and large version, and investigate how faithful their representations are with respect to the sem

transformer-based language models semantic faithfulness intervention-based training predicate-argument structure instructgpt

发现论文，激发创造

略施推力，NLI 模型可鲁棒高效地预测忠实度

本文提出了一种利用数据增强和鲁棒推理过程将单纯的 NLI 模型用于预测语言模型忠实度的方法，应用于 TRUE 基准来说效果显著且计算代价较小。

May, 2023

基于 Transformer 的 NLI 模型中的自然逻辑特征因果效应估计

利用因果效应估计策略衡量上下文干预和插入词对于推理标签的影响，通过广泛的干预研究验证模型对不相关变化的稳健性和对有影响变化的敏感性。

Apr, 2024

具有句法信息的异构图变换器问答

本研究探讨了如何在不需要从头开始的情况下，在预训练的神经语言模型中添加显式的语言学信息，以提高其性能，并提出了一种基于转换器的神经语言模型，通过异构图转换器对模型进行扩展和微调，这可以通过添加句法信息来实现，而基于斯坦福问答数据集的实证性能评估表明了该方法的竞争性。此方法包括语义和语用方面的信息，具有可扩展性。

Apr, 2022

道德建议接受者：语言模型是否理解自然语言干预？

本研究探讨将自然语言用于干预模型行为以及改变其预测结果的可能性，特别是在社会刻板印象的语境下，研究了自然语言干预对阅读理解系统的有效性。实验发现，即使是目前功能强大的神经语言模型，在伦理干预方面表现依然极差，以致于即便干预语句十分简单，模型反应仍非常少。我们的新任务为社区提出了一项新的语言理解挑战。

Jun, 2021

使用 Transformer 进行可解释的口语欺骗检测

本文提出并评估了六种深度学习模型，包括 BERT（和 RoBERTa），MultiHead Attention，co-attentions 和 transformers，结果表明我们的基于 transformer 的模型可以提高自动化的欺骗检测性能（+2.11％的准确率），并显示与真实和欺骗陈述中 LIWC 特征使用相关的显着差异。

Oct, 2022

您的模型能否区分否定与暗示？揭示意图编码的挑战

通过使用三个任务（意图分类、意图聚类和新颖的三元组任务）来评估意图嵌入模型在语义理解方面的能力，研究使用预训练方法和数据增强来改善意图嵌入模型在实际对话系统中的性能。

Mar, 2024

用于机器翻译和自然语言理解的语法注入 Transformer 和 BERT 模型

本论文研究了通过将句法信息与深度学习模型相结合，提高自然语言处理任务的性能表现，对多特征的语法 - Transformer 进行了测试，发现在完整数据集和部分数据集中，BLEU 得分都有明显提升，同时，在 GLUE 基准测试中，语法嵌入的 BERT 微调在几个下游任务中表现优于基线。

Nov, 2019

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023

用于跨语言评估的基于逻辑的语料库

本文提出了一种新的语法任务集，专注于矛盾检测，并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果，但在处理计数算子时仍有待改进，同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。

May, 2019

神经自然语言推断模型部分嵌入了词汇蕴含和否定理论

本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用，并提出了一个新的自然数据集 MoNLI，其中集中了词汇蕴涵和否定的相关内容，通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果，同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。

Apr, 2020