大型领域对话管理中的封建强化学习

ACLMar, 2018

大型领域对话管理中的封建强化学习

Feudal Reinforcement Learning for Dialogue Management in Large Domains

Iñigo Casanueva, Paweł Budzianowski, Pei-Hao Su, Stefan Ultes, Lina Rojas-Barahona...

TL;DR本文提出了一种以 Feudal RL 为基础的对话管理架构，利用领域本体结构信息抽象出对话状态空间，并在不需要额外奖励信号的情况下，在几个对话领域和环境中显著优于先前的最新成果。

Abstract

reinforcement learning (RL) is a promising approach to solve dialogue policy optimisation. Traditional RL algorithms, however, fail to scale to large domains due to the curse of dimensionality. We propose a novel Dialogue Management architecture, based on →

reinforcement learning dialogue policy optimization feudal rl ontology information sharing

发现论文，激发创造

用于开放领域对话的分层强化学习

本文提出使用分层强化学习（VHRL）框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法，以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标，与包括变形金刚在内的最先进的对话模型相比，证明我们的方法在人类评估和自动指标方面提供显着的改进。

Sep, 2019

封建图强化学习

使用封建式的强化学习方法，通过分层的图表示来控制具有不同结构的物理代理，并在基准环境中证明框架的概念及其在标准基准和零点转移学习设置方面的良好结果。

Apr, 2023

基于分层强化学习的对话管理子域建模

本文提出在多领域对话管理中使用分层强化学习和选项框架的方法，并且与现有平面方法相比学习速度更快且得到更好的结果，同时展示预训练策略如何适应更复杂的对话系统并为更复杂的多领域对话系统提供政策优化的可能性。

Jun, 2017

从弱演示中学习对话策略

本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法，利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators，以解决多领域对话系统中 state 和 action 空间较大的问题，并在实验中取得了较高的成功率。

Apr, 2020

多领域对话系统的深度强化学习

本文提出了一种用于多域对话政策学习的 NDQN 方法，与传统的 Deep Q-Networks（DQN）相比，实验结果表明其具有更好的可扩展性，有望优化多域对话系统的行为。

Nov, 2016

通过对话策略和语言生成之间的替代优化构建面向任务的视觉对话系统

本研究提出一种新的框架，可有效学习任务导向视觉对话系统的最优对话策略，并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。

Sep, 2019

联邦深度强化学习

本文提出了一种新的深度强化学习框架 FedRL，旨在联邦地建立高质量的代理模型，其中考虑到其隐私，并通过利用高斯微分来保护数据和模型的隐私。在 Grid-world 和 Text2Action 领域的实验中，该框架与各种基线模型进行了比较。

Jan, 2019

引导式对话策略学习：针对多领域任务导向型对话的奖励估计

该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法，该算法可以在多领域任务导向对话中进行奖励估计和策略优化，以实现有效的对话，并在多领域对话数据集上进行广泛实验。

Aug, 2019

分布式结构化演员 - 评论家强化学习在通用对话管理中的应用

本篇论文主要探讨针对特定任务的语音对话系统，重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略，并以神经网络为函数逼近器的方式，探索深度强化学习算法在对话决策中的应用。

Sep, 2020

奖励关键之处：面向任务的对话的逐步强化学习

通过引入逐步奖励机制，我们的方法在理解和生成任务中对强化学习进行了扩展，实现了平衡优化，提高了任务导向对话系统的性能，并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结果。与现有模型相比，我们的方法还展现了在低资源环境中的出色少样本能力。

Jun, 2024