基于动作嵌入的多领域对话策略的强化学习

Jul, 2022

基于动作嵌入的多领域对话策略的强化学习

Reinforcement Learning of Multi-Domain Dialog Policies Via Action Embeddings

Jorge A. Mendez, Alborz Geramifard, Mohammad Ghavamzadeh, Bing Liu

TL;DR该研究提出使用跨领域数据的方法来优化强化学习中基于任务的对话策略并减少所需数据量，具体方法为学习领域无关的动作嵌入，这些嵌入能够更快速准确地在模拟环境中训练策略。

Abstract

Learning task-oriented dialog policies via reinforcement learning typically requires large amounts of interaction with users, which in practice renders such methods unusable for real-world applications. In order

task-oriented dialog policies reinforcement learning data requirements domain-agnostic action embeddings simulated domains

发现论文，激发创造

学习有关的内容：使用任务相关嵌入的跨域模仿学习

本研究提出了一种基于对抗训练的可扩展框架，用于实现基于跨领域演示的自主智能体学习任务的能力，通过学习映射来实现不同领域间的策略转移，解决了其他方法在许多领域方面存在的问题。

Sep, 2022

多领域任务导向对话的图神经网络策略及模仿学习

本研究使用基于图神经网络的结构化策略及不同程度的模仿学习，来有效地处理多领域对话，结果表明结构化策略优于标准策略。

Oct, 2022

面向多领域和多任务对话的少样本结构化策略学习

本研究旨在探讨使用结构化政策提高在多领域和多任务环境下的强化学习样本效率。作者在测试不同结构化水平时，发现图形神经网络具有优势，且建议未来的研究应聚焦于连接人类数据、模拟器和自动评估器。

Feb, 2023

跨对话任务的少样本通用化

我们提出使用 Recurrent Embedding Dialogue Policy（REDP）和 Neural Turing Machine 技术，对机器人会话管理进行研究。研究结果表明 REDP 能够有效地处理顾客的不良行为，并在 bAbI 对话任务中实现了 100％的测试准确率。

Nov, 2018

引导式对话策略学习：针对多领域任务导向型对话的奖励估计

该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法，该算法可以在多领域任务导向对话中进行奖励估计和策略优化，以实现有效的对话，并在多领域对话数据集上进行广泛实验。

Aug, 2019

基于分层强化学习的对话管理子域建模

本文提出在多领域对话管理中使用分层强化学习和选项框架的方法，并且与现有平面方法相比学习速度更快且得到更好的结果，同时展示预训练策略如何适应更复杂的对话系统并为更复杂的多领域对话系统提供政策优化的可能性。

Jun, 2017

学习具有行动嵌入的可转移动作策略

本文提出了一种通过学习状态嵌入和动作嵌入来跨不同状态和动作空间传递策略的方法，实验结果表明该方法不仅可以学习有用的动作嵌入，而且可以加速策略学习。

Sep, 2019

用于开放领域对话的分层强化学习

本文提出使用分层强化学习（VHRL）框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法，以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标，与包括变形金刚在内的最先进的对话模型相比，证明我们的方法在人类评估和自动指标方面提供显着的改进。

Sep, 2019

从弱演示中学习对话策略

本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法，利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators，以解决多领域对话系统中 state 和 action 空间较大的问题，并在实验中取得了较高的成功率。

Apr, 2020

大型领域对话管理中的封建强化学习

本文提出了一种以 Feudal RL 为基础的对话管理架构，利用领域本体结构信息抽象出对话状态空间，并在不需要额外奖励信号的情况下，在几个对话领域和环境中显著优于先前的最新成果。

Mar, 2018