使用层次行动探索的深度强化学习实现对话生成

Mar, 2023

使用层次行动探索的深度强化学习实现对话生成

Deep RL with Hierarchical Action Exploration for Dialogue Generation

Itsugun Cho, Ryota Takahashi, Yusaku Yanase, Hiroaki Saito

TL;DR本文提出一种新的双粒度 Q 函数，通过探索最有前途的响应类型来介入采样，从而解决自然语言行动空间巨大所带来的效率问题，在多个设计用于识别人类情感细节的奖励函数中，以离线强化学习的方式学习，我们的算法在实证研究中表现优于基线方法，进一步验证表明我们的方法可以生成更高期望奖励和可控性响应。

Abstract

Conventionally, since the natural language action space is astronomical, approximate dynamic programming applied to dialogue generation involves policy improvement with action sampling. However, such a practice is inefficient for →

dialogue generation reinforcement learning q-function offline learning reward functions

发现论文，激发创造

用于开放领域对话的分层强化学习

本文提出使用分层强化学习（VHRL）框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法，以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标，与包括变形金刚在内的最先进的对话模型相比，证明我们的方法在人类评估和自动指标方面提供显着的改进。

Sep, 2019

针对大动作空间的对话系统高效样本深度增强学习

本文探究深度强化学习方法解决在口语对话系统的策略优化问题，通过结合多种方法提出 ACER 算法以显著提高训练效率和应用范围。

Feb, 2018

细致估计，大胆探索

基于双 Q 函数框架，引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题，通过使用贪婪 Q 值和保守 Q 值的加权和来更新 Q 值，将行动探索与 Q 值更新相结合，并在 Mujoco 基准测试中展示了优越的性能。

Aug, 2023

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

通过对话策略和语言生成之间的替代优化构建面向任务的视觉对话系统

本研究提出一种新的框架，可有效学习任务导向视觉对话系统的最优对话策略，并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。

Sep, 2019

对话生成的深度强化学习

本研究基于强化学习，建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。

Jun, 2016

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

深度 Q 学习中行动泛化差距的表征

该研究研究了深度强化学习中离散行动空间中的行动泛化能力，发现 Deep Q-Networks 仍能以较小的行动泛化差异在简单领域中实现行动泛化

May, 2022

使用双阶段训练的策略网络用于对话系统

本文提出使用训练有优势 actor-critic 方法的深度策略网络统计优化对话系统，演示了在深度强化学习下优于高斯过程方法，可以有效地训练部分可观察马尔可夫决策过程的对话系统，有效提高学习速度，所有实验在 DSTC2 餐厅领域数据集上进行。

Jun, 2016

大型领域对话管理中的封建强化学习

本文提出了一种以 Feudal RL 为基础的对话管理架构，利用领域本体结构信息抽象出对话状态空间，并在不需要额外奖励信号的情况下，在几个对话领域和环境中显著优于先前的最新成果。

Mar, 2018