通过强化学习和人类示范来减少说服对话中的重复和不一致性

EMNLPDec, 2020

通过强化学习和人类示范来减少说服对话中的重复和不一致性

Refine and Imitate: Reducing Repetition and Inconsistency in Persuasion Dialogues via Reinforcement Learning and Human Demonstration

PDF

Weiyan Shi, Yu Li, Saurav Sahay, Zhou Yu

TL;DR本文通过引入强化学习（RL）进行用户交互训练，实现了一个更加人性化的劝说对话系统，并成功在捐赠劝说任务中取得了优于先前最先进的对话模型的表现。

Abstract

persuasion dialogue systems reflect the machine's ability to make strategic moves beyond verbal communication, and therefore differentiate themselves from task-oriented or open-domain dialogue systems and have their own unique values. However, the repetition and inconsistency problems

persuasion dialogue systems reinforcement learning user simulator language model donation persuasion task

发现论文，激发创造

探究强化学习在任务倡导设置中的通信策略

在一个参考沟通任务中，我们利用模拟研究了系统在针对用户提供细致信息时的互动策略，分析了用户澄清策略对初始呈现和后续跟进之间的沟通权衡，并比较了几种基线策略和强化学习导出的策略的性能。我们发现，基于连贯性的对话策略具有令人惊讶的优势，它们需要最少的数据，可以解释选择，并具有强大的审核能力，但在各种用户模型下预测结果的损失很小。

Aug, 2023

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

通过强化学习学习生成对话生成的提示

本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容，并通过 multi-task learning 提高该方法的泛化能力和适应性，实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。

Jun, 2022

利用离线强化学习构建具有一致性个性的对话代理

通过使用离线强化学习框架提高对话系统的人物一致性，结合监督学习的现有数据训练和奖惩特定话语，引入简化的重要性采样方法，可以改善社交聊天机器人的人物一致性和对话质量。

Oct, 2023

对话生成的深度强化学习

本研究基于强化学习，建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。

Jun, 2016

离线混合专家对话管理强化学习

本文旨在解决用强化学习为动力的聊天机器人中的在线探索困难问题。作者使用了针对对话规划的多种 RL 算法，利用 MoE-LM 对话模型的结构，通过缩小行动空间并提高 RL-DM 的效能来展示这些算法在开放领域对话中的有效性。

Feb, 2023

通过 RL 对想象中的对话进行零样本目标导向对话

通过使用强化学习进行交互式对话的目标导向任务，本研究提出利用大型语言模型生成可能的交互示例，再通过强化学习算法优化这些示例，以实现更优化的交互能力，从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。

Nov, 2023

端到端可训练任务导向神经对话模型中的迭代策略学习

本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法，解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题，同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中，其关键在于通过深度 RL 来同时优化对话代理和用户模拟器的对话策略，并且对话代理和用户模拟器均建立在端到端的神经网络模型上。

Sep, 2017

对话生成：从模仿学习到逆强化学习

通过采用敌对模仿学习和敌对逆强化学习的方法，提出了一种新的对话生成奖励模型，可用于更精确地指导生成器训练，实验结果表明其有效性。

Dec, 2018

用于开放领域对话的分层强化学习

本文提出使用分层强化学习（VHRL）框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法，以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标，与包括变形金刚在内的最先进的对话模型相比，证明我们的方法在人类评估和自动指标方面提供显着的改进。

Sep, 2019