用于开放领域对话的分层强化学习

Sep, 2019

用于开放领域对话的分层强化学习

Hierarchical Reinforcement Learning for Open-Domain Dialog

Abdelrhman Saleh, Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen, Rosalind Picard

TL;DR本文提出使用分层强化学习（VHRL）框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法，以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标，与包括变形金刚在内的最先进的对话模型相比，证明我们的方法在人类评估和自动指标方面提供显着的改进。

Abstract

open-domain dialog generation is a challenging problem; maximum likelihood training can lead to repetitive outputs, models have difficulty tracking long-term conversational goals, and training on standard movie or online datasets may lead to the generation of inappropriate, biased, or

open-domain dialog generation reinforcement learning hierarchical reinforcement learning variational sequence model human-centered conversation metrics

发现论文，激发创造

基于分层强化学习的对话管理子域建模

本文提出在多领域对话管理中使用分层强化学习和选项框架的方法，并且与现有平面方法相比学习速度更快且得到更好的结果，同时展示预训练策略如何适应更复杂的对话系统并为更复杂的多领域对话系统提供政策优化的可能性。

Jun, 2017

对话生成的深度强化学习

本研究基于强化学习，建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。

Jun, 2016

大型领域对话管理中的封建强化学习

本文提出了一种以 Feudal RL 为基础的对话管理架构，利用领域本体结构信息抽象出对话状态空间，并在不需要额外奖励信号的情况下，在几个对话领域和环境中显著优于先前的最新成果。

Mar, 2018

通过对话策略和语言生成之间的替代优化构建面向任务的视觉对话系统

本研究提出一种新的框架，可有效学习任务导向视觉对话系统的最优对话策略，并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。

Sep, 2019

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

战略对话的分层文本生成与规划

本论文介绍了一种学习对话信息表征、提高决策效率的方法，通过解耦对话表述中的语义和语言实现，使用学习到的表征完成对话生成、规划和增强学习等任务，在实验中效果比之前的工作更佳。

Dec, 2017

使用强化学习进行开放式对话的动态规划

本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统，并在使用谷歌智能助手的实验中，使用众包数据进行训练，显著超越了强化模型，证明其对于自然人对话有较高的开放性和可行性。

Jul, 2022

面向任务的多模态层次强化学习策略：视觉对话

通过多模态层次强化学习框架和状态适应技术，实现了语音和图像的目标驱动对话。在图像猜谜游戏中进行了实验，取得了良好的效果。

May, 2018

基于选项框架的任务型对话系统中对话策略和自然语言生成器之间的分层结构建模

本文提出了一种利用层次强化学习方法及潜在会话行为来设计任务导向的对话系统，可有效解决以前使用监督学习和强化学习训练的模型在用户请求满足和生成系统话语的可理解性之间难以平衡的问题，并在测试中与其他模型相比获得了更好的性能表现。

Jun, 2020

无需对抗性学习的引导式对话策略学习

提出了一种将对抗训练分解成两步的方法，通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中，以引导对话策略学习。该方法适用于在线和离线强化学习方法，可获得显著的任务成功率，并有将知识从现有领域转移到新领域的潜力。

Apr, 2020