生成对抗性负面回复以提升响应排名与评估的鲁棒性
本研究提出了一种使用大规模语言模型生成对抗性负面响应的简单而高效的方法,用于提高在检索式对话系统中响应选择模型的识别能力,并证明其在对话选择任务中优于其他对抗性负面响应合成方法。
Oct, 2022
本研究对开源聊天机器人的多种回复生成方法进行了系统评估,提出了利用手动注释筛选出的多个正向回复和负向回复,从而提高模型效果的新训练数据,并实验证明性能较之采用对抗训练数据有更显著提升。
Aug, 2022
本文提出了一种基于对抗训练的方法用于生成开放领域对话,该系统的对话和人类对话几乎无法区分。作者将问题转化为一个强化学习问题,同时训练一个生成模型和一个鉴别器,用于评估生成的对话是否和人类对话相似,并将鉴别器的输出作为奖励信号,并进一步提出了一种评估模型 - 对抗性评估模型,该模型可避免一系列潜在的问题。实验结果表明,基于对抗训练的系统生成的响应比先前的基线模型更具参考价值。
Jan, 2017
为了更好地训练和评估基于模型的度量方法,我们引入了 DailyDialog++ 数据集,并提出了一种新的基于 BERT 的度量方法 DEB,该方法预训练与 Reddit 对话中并且对我们的数据集进行了微调。DEB 的性能显著优于现有模型,并表现出更好的与人类判断的相关性和更好的随机负例性能,但在对抗性响应的评估中性能显著下降。
Sep, 2020
本研究探讨了数据人工制品对机器学习模型泛化能力所产生的影响,提出一种基于对比学习的框架,试图鼓励深度学习模型学习普适规律并忽略数据人工制品。研究表明该方法具有很好的实验效果。
May, 2022
我们提出了一个简单而有效的开放域对话评估框架,通过将领域特定语言模型(SLMs)与 LLMs 结合起来,明确地通过门控机制将对话的抽象意义表示(AMR)图信息融入到 LLM 的提示中,以提高上下文学习性能,并在开放域对话评估任务中的实验结果证明了我们方法在区分对抗性负面回应方面的优越性。
Apr, 2024
通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
本文提出采用反事实推理来探索潜在回应,并在 DailyDialog 数据集上实验证明在仿真产生回应时更优,训练反事实回应可以帮助探索潜在回应空间的高奖励区域。
Apr, 2020