本文提出了一种基于对抗训练的方法用于生成开放领域对话,该系统的对话和人类对话几乎无法区分。作者将问题转化为一个强化学习问题,同时训练一个生成模型和一个鉴别器,用于评估生成的对话是否和人类对话相似,并将鉴别器的输出作为奖励信号,并进一步提出了一种评估模型 - 对抗性评估模型,该模型可避免一系列潜在的问题。实验结果表明,基于对抗训练的系统生成的响应比先前的基线模型更具参考价值。
Jan, 2017
研究了使用对抗性损失来评估对话系统生成的对话回复的可行性。通过训练 RNN 区分模型生成的样本和人类生成的样本,发现该方法可能可行,但实际应用中仍存在许多问题。
提出 ADEM 模型用于对话质量的学习式自动评估,其比基于词汇重叠的 BLEU 更能与人类评估相匹配,同时具有泛化评估不同模型的能力。
Aug, 2017
本研究提出了一种构建响应选择测试集以进行系统评估的方法,通过过滤不相关的和可接受的候选者,实验表明此方法比BLEU等自动评估指标更能与人类评估相关联。
Apr, 2020
为了更好地训练和评估基于模型的度量方法,我们引入了DailyDialog++数据集,并提出了一种新的基于BERT的度量方法DEB,该方法预训练与Reddit对话中并且对我们的数据集进行了微调。DEB的性能显著优于现有模型,并表现出更好的与人类判断的相关性和更好的随机负例性能,但在对抗性响应的评估中性能显著下降。
Sep, 2020
发展神经对话模型需要超越“内容相似性”,本文提出用对抗性负面样本提高模型的实用性。实验表明,我们的方法在多个数据集上均表现优异。
Jun, 2021
本文介绍一种对话系统对话回复的鲁棒性测试方法,利用对抗学习方法提取出优化得分的回复策略,并利用该方法测试最近提出的训练度量标准,发现它们均容易将相对简单且明显存在缺陷的策略高分,如直接复制对话环境中的部分内容拼成回复竟然可以超越甚至优于人类翻译的水平。
Feb, 2022
本研究对开源聊天机器人的多种回复生成方法进行了系统评估,提出了利用手动注释筛选出的多个正向回复和负向回复,从而提高模型效果的新训练数据,并实验证明性能较之采用对抗训练数据有更显著提升。
Aug, 2022
自动对话评估的研究中,大型语言模型、神经度量指标以及元评估数据集的应用,以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。
Dec, 2023
我们提出了一个简单而有效的开放域对话评估框架,通过将领域特定语言模型(SLMs)与LLMs结合起来,明确地通过门控机制将对话的抽象意义表示(AMR)图信息融入到LLM的提示中,以提高上下文学习性能,并在开放域对话评估任务中的实验结果证明了我们方法在区分对抗性负面回应方面的优越性。
Apr, 2024