离线强化学习下的以人为中心的对话训练
提出了一种新型的基于批处理的深度强化学习算法,可以在没有在线探索的情况下有效地从人类交互数据的固定批量中进行离线学习,并在开放域对话生成等领域取得了显著的改进。
Jun, 2019
提出一种基于人类监督的强化学习在线部署框架,包含两种方法:一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署,二是在监督信号到达时在线微调模型。通过实证验证,这些方法有效地应用于机器人运动控制和交通信号控制任务中。
Mar, 2023
本篇论文提出了一种离线强化学习方法,通过利用多样化的人机交互行为,在不需要在线训练或高保真模拟器的情况下,学习一些对人类行为产生积极影响的策略,从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。
Mar, 2023
通过使用离线强化学习框架提高对话系统的人物一致性,结合监督学习的现有数据训练和奖惩特定话语,引入简化的重要性采样方法,可以改善社交聊天机器人的人物一致性和对话质量。
Oct, 2023
研究通过离线强化学习方法在对话响应生成中最大化序列级目标,对多个数据集、模型和度量进行全面评估,离线强化学习相比于教师强制训练能够明显提高性能却不会导致训练不稳定或牺牲实际训练预算。
Jul, 2023
本文提出使用分层强化学习(VHRL)框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法,以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标,与包括变形金刚在内的最先进的对话模型相比,证明我们的方法在人类评估和自动指标方面提供显着的改进。
Sep, 2019
本文提出了一种离线强化学习方法,可从未标注的语料库中学习,既可以在话语级别上进行优化又可以在对话级别上进行优化,解决了现有方法对话级别考虑不足的问题,并使用了一种新的奖励函数和在线 / 离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。
Dec, 2017
应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手,对几乎所有的自然语言处理评估表现都有提高,与训练针对特定技能(如 Python 编程和摘要)的方法相容。通过迭代在线模式的训练,每周使用新的人类反馈数据更新偏好模型和强化学习策略,有效改进了数据集和模型。同时,研究了强化学习从人类反馈中学习的鲁棒性和重要性,提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外,对校准、竞争目标和 OOD 检测的使用进行了边缘分析,并将模型与人类作家进行了比较,并提供了使用最新相关工作中出现的提示的模型样本。
Apr, 2022
本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统,该方法包括强化学习和模仿学习,通过神经网络来优化并能够从用户教学中进行学习。实验结果表明,该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误,并在模仿学习阶段之后应用强化学习提高完成任务的能力。
Apr, 2018
本文讨论使用离线强化学习代替在人类对话中的试错学习来训练对话代理,结果表明最近发展的离线强化学习与语言模型相结合可以产生更好地实现任务目标的逼真对话代理。
Apr, 2022