生成对抗性负面回复以提升响应排名与评估的鲁棒性

ACLJun, 2021

生成对抗性负面回复以提升响应排名与评估的鲁棒性

Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation

Prakhar Gupta, Yulia Tsvetkov, Jeffrey P. Bigham

TL;DR发展神经对话模型需要超越 “内容相似性”，本文提出用对抗性负面样本提高模型的实用性。实验表明，我们的方法在多个数据集上均表现优异。

Abstract

Open-domain neural dialogue models have achieved high performance in response ranking and evaluation tasks. These tasks are formulated as a binary classification of responses given in a dialogue context, and models generally learn to make predictions based on →

neural dialogue models context-response content similarity adversarial negative training data dialogue systems informative negative examples

发现论文，激发创造

针对对话响应选择任务的基于提示的负面响应生成

本研究提出了一种使用大规模语言模型生成对抗性负面响应的简单而高效的方法，用于提高在检索式对话系统中响应选择模型的识别能力，并证明其在对话选择任务中优于其他对抗性负面响应合成方法。

Oct, 2022

开放域对话响应选择的系统评估

本研究对开源聊天机器人的多种回复生成方法进行了系统评估，提出了利用手动注释筛选出的多个正向回复和负向回复，从而提高模型效果的新训练数据，并实验证明性能较之采用对抗训练数据有更显著提升。

Aug, 2022

神经对话应答生成的负样本训练

本文提出了一种名为 “负面训练” 的框架，通过寻找令人不满意的行为来微调模型，以显著减少恶意回应，或抑制频繁回应并提高回应多样性。

Mar, 2019

神经对话生成的对抗学习

本文提出了一种基于对抗训练的方法用于生成开放领域对话，该系统的对话和人类对话几乎无法区分。作者将问题转化为一个强化学习问题，同时训练一个生成模型和一个鉴别器，用于评估生成的对话是否和人类对话相似，并将鉴别器的输出作为奖励信号，并进一步提出了一种评估模型 - 对抗性评估模型，该模型可避免一系列潜在的问题。实验结果表明，基于对抗训练的系统生成的响应比先前的基线模型更具参考价值。

Jan, 2017

通过多引用对抗数据集和大规模预训练来改善对话评估

为了更好地训练和评估基于模型的度量方法，我们引入了 DailyDialog++ 数据集，并提出了一种新的基于 BERT 的度量方法 DEB，该方法预训练与 Reddit 对话中并且对我们的数据集进行了微调。DEB 的性能显著优于现有模型，并表现出更好的与人类判断的相关性和更好的随机负例性能，但在对抗性响应的评估中性能显著下降。

Sep, 2020

使用对比预训练和对抗过滤的强健任务导向对话生成

本研究探讨了数据人工制品对机器学习模型泛化能力所产生的影响，提出一种基于对比学习的框架，试图鼓励深度学习模型学习普适规律并忽略数据人工制品。研究表明该方法具有很好的实验效果。

May, 2022

结构化信息的重要性：将抽象意义表示引入到 LLMs 中以提高开放域对话评估

我们提出了一个简单而有效的开放域对话评估框架，通过将领域特定语言模型（SLMs）与 LLMs 结合起来，明确地通过门控机制将对话的抽象意义表示（AMR）图信息融入到 LLM 的提示中，以提高上下文学习性能，并在开放域对话评估任务中的实验结果证明了我们方法在区分对抗性负面回应方面的优越性。

Apr, 2024

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

神经响应生成的反事实离线训练

本文提出采用反事实推理来探索潜在回应，并在 DailyDialog 数据集上实验证明在仿真产生回应时更优，训练反事实回应可以帮助探索潜在回应空间的高奖励区域。

Apr, 2020

对话模型的对抗性评估

研究了使用对抗性损失来评估对话系统生成的对话回复的可行性。通过训练 RNN 区分模型生成的样本和人类生成的样本，发现该方法可能可行，但实际应用中仍存在许多问题。

Jan, 2017