离线强化学习下的以人为中心的对话训练

EMNLPOct, 2020

离线强化学习下的以人为中心的对话训练

Human-centric Dialog Training via Offline Reinforcement Learning

Natasha Jaques, Judy Hanwen Shen, Asma Ghandeharioun, Craig Ferguson, Agata Lapedriza...

TL;DR通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Abstract

How can we train a dialog model to produce better conversations by learning from human feedback, without the risk of humans teaching it harmful chat behaviors? We start by hosting models online, and gather

dialog model human feedback offline reinforcement learning conversational cues language similarity

发现论文，激发创造

对话中隐含人类偏好的大规模脱靶批次深度强化学习

提出了一种新型的基于批处理的深度强化学习算法，可以在没有在线探索的情况下有效地从人类交互数据的固定批量中进行离线学习，并在开放域对话生成等领域取得了显著的改进。

Jun, 2019

离线强化学习与人类反馈的部署

提出一种基于人类监督的强化学习在线部署框架，包含两种方法：一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署，二是在监督信号到达时在线微调模型。通过实证验证，这些方法有效地应用于机器人运动控制和交通信号控制任务中。

Mar, 2023

使用离线强化学习学习影响人类行为

本篇论文提出了一种离线强化学习方法，通过利用多样化的人机交互行为，在不需要在线训练或高保真模拟器的情况下，学习一些对人类行为产生积极影响的策略，从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。

Mar, 2023

利用离线强化学习构建具有一致性个性的对话代理

通过使用离线强化学习框架提高对话系统的人物一致性，结合监督学习的现有数据训练和奖惩特定话语，引入简化的重要性采样方法，可以改善社交聊天机器人的人物一致性和对话质量。

Oct, 2023

离线强化学习在对话回复生成中的有效性

研究通过离线强化学习方法在对话响应生成中最大化序列级目标，对多个数据集、模型和度量进行全面评估，离线强化学习相比于教师强制训练能够明显提高性能却不会导致训练不稳定或牺牲实际训练预算。

Jul, 2023

用于开放领域对话的分层强化学习

本文提出使用分层强化学习（VHRL）框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法，以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标，与包括变形金刚在内的最先进的对话模型相比，证明我们的方法在人类评估和自动指标方面提供显着的改进。

Sep, 2019

使用策略梯度的端到端离线目标导向型对话策略学习

本文提出了一种离线强化学习方法，可从未标注的语料库中学习，既可以在话语级别上进行优化又可以在对话级别上进行优化，解决了现有方法对话级别考虑不足的问题，并使用了一种新的奖励函数和在线 / 离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。

Dec, 2017

利用人类反馈进行强化学习训练有益且无害的助手

应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手，对几乎所有的自然语言处理评估表现都有提高，与训练针对特定技能（如 Python 编程和摘要）的方法相容。通过迭代在线模式的训练，每周使用新的人类反馈数据更新偏好模型和强化学习策略，有效改进了数据集和模型。同时，研究了强化学习从人类反馈中学习的鲁棒性和重要性，提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外，对校准、竞争目标和 OOD 检测的使用进行了边缘分析，并将模型与人类作家进行了比较，并提供了使用最新相关工作中出现的提示的模型样本。

Apr, 2022

端到端可训练任务导向对话系统中的人类教学与反馈对话学习

本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统，该方法包括强化学习和模仿学习，通过神经网络来优化并能够从用户教学中进行学习。实验结果表明，该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误，并在模仿学习阶段之后应用强化学习提高完成任务的能力。

Apr, 2018

CHAI: 一种基于离线强化学习的面向任务型对话的聊天机器人 AI

本文讨论使用离线强化学习代替在人类对话中的试错学习来训练对话代理，结果表明最近发展的离线强化学习与语言模型相结合可以产生更好地实现任务目标的逼真对话代理。

Apr, 2022