针对矛盾对话的红队语言模型

May, 2024

Red Teaming Language Models for Contradictory Dialogues

Xiaofei Wen, Bangzheng Li, Tenghao Huang, Muhao Chen

TL;DR通过探索一种新的矛盾对话处理任务，该研究试图检测和修改会话中的矛盾陈述，以减轻当前语言模型在对话中自相矛盾的问题，并通过开发一个数据集和一个 Red Teaming 框架展示了该任务的有效性，强调了在对话式人工智能中逻辑不一致问题的重要性。

Abstract

Most language models currently available are prone to self-contradiction during dialogues. To mitigate this issue, this study explores a novel contradictory dialogue processing task that aims to detect and modify contradictory statements in a conversation. This task is inspired by rese

contradictory dialogue processing detection modifying contradictions explanatory label logical inconsistency problem

发现论文，激发创造

论对话建模中的矛盾解决：我喜欢鱼，尤其是海豚

本篇论文研究了自然语言理解模型在抓住普遍会话中的一致性方面的应用。为此，作者提出了 DialoguE COntradiction DEtection 任务并创建了一个包含人类与机器人相互矛盾的对话的新型会话数据集。作者进一步比较了基于预训练 Transformer 模型进行矛盾检测的结构化语言表述方法与典型的非结构化方法，并发现结构化语言表述方法在分析与分布式会话中的表现更为健壮且更具可转移性。作者提供了证据表明，他们的最佳矛盾检测模型与人类判断相一致，并可自动评估与提高最先进的生成式聊天机器人的一致性。

Dec, 2020

大型语言模型的自相矛盾幻觉：评估、检测和缓解

本文分析了自相矛盾在大型语言模型中的表现，并提出了评估，检测和缓解的方法。研究发现，自相矛盾经常发生，但我们开发的框架可以准确地检测和减少自相矛盾。

May, 2023

一个大型模型生成的一致性感知对话系统的矛盾回答集合

通过对模型生成的矛盾回应进行广泛分析，我们构建了一个大型数据集，并获取了这些模型生成的矛盾的特征，最后展示了该数据集如何大幅提升数据驱动的矛盾抑制方法的性能。

Mar, 2024

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

通过话语改写提高机器人响应矛盾检测的效果

为了改进聊天机器人中的矛盾检测，本文提出了一种通过重写聊天机器人发言来还原先行词和省略号的方法，并在相应的数据集上建立了模型，实证结果表明该模型能够显著提高矛盾检测性能。

Jul, 2022

ContraDoc：对大型语言模型中文档中的自相矛盾进行理解

该研究介绍了 ContraDoc，这是第一个用于研究长文档中自相矛盾的人工注释数据集，通过分析四种最先进的开源和商业化大型语言模型（GPT3.5、GPT4、PaLM2 和 LLaMAv2）在该数据集上的能力，发现 GPT4 表现最佳，但仍然在需要更多细微差别和上下文的自相矛盾方面不可靠。

Nov, 2023

利用大型语言模型和语言规则生成矛盾检测的原型

介绍了一种新颖的数据生成方法用于矛盾检测，结合了大型语言模型的生成能力和语言规则，旨在提供一种取得深入语言分析和高效语言模型微调的原型矛盾语料库。

Oct, 2023

多代理辩论对抗对抗攻击

通过多代理辩论和嵌入式聚类，我们研究了现代语言模型在对抗性攻击和多代理环境下的表现，并发现多代理辩论可以减少模型的有害性，并改善对不同类型攻击主题的抵抗能力。

Jan, 2024

作为间接推理器的大型语言模型：自动推理的逆否和矛盾

本文提出了一种新的间接推理（IR）方法，利用逆否命题和矛盾的逻辑来解决事实推理和数学证明等 IR 任务，以加强大型语言模型（LLMs）的推理能力。与传统 DR 方法相比，我们的 IR 方法通过对话模板触发 LLMs 进行基于矛盾推论的 IR 过程来提高推理准确性，并且与 IR 或 DR 单独使用相比，IR 和 DR 结合的方法表现出更高的效果。

Feb, 2024

基于 N-best 响应的神经响应生成模型中矛盾意识分析

本文通过对 n-best 列表的一致性进行定量分析，探究了最新的神经响应生成模型和方法的矛盾意识，讨论了它们的特性和局限性。

Aug, 2022