从弱演示中学习对话策略

ACLApr, 2020

Learning Dialog Policies from Weak Demonstrations

Gabriel Gordon-Hall, Philip John Gorinski, Shay B. Cohen

TL;DR本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法，利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators，以解决多领域对话系统中 state 和 action 空间较大的问题，并在实验中取得了较高的成功率。

Abstract

deep reinforcement learning is a promising approach to training a dialog manager, but current methods struggle with the large state and action spaces of multi-domain dialog systems. Building upon →

deep reinforcement learning dialog manager multi-domain dialog systems deep q-learning from demonstrations reinforced fine-tune learning

发现论文，激发创造

演示中的深度 Q 学习

本文介绍了 Deep Q-learning from Demonstrations（DQfD）算法，并探究其应用于真实环境下学习任务的可行性以及其在模拟环境和真实环境中的表现；同时，DQfD 算法通过采用优先重放机制以及组合时差更新和监督学习来利用少量演示数据显著加速学习过程。实验表明，DQfD 相较于其他三种相关算法在学习任务中具有更好的表现，并可通过人类演示数据来实现一些领先于其他算法的新的最优成果。

Apr, 2017

多领域对话系统的深度强化学习

本文提出了一种用于多域对话政策学习的 NDQN 方法，与传统的 Deep Q-Networks（DQN）相比，实验结果表明其具有更好的可扩展性，有望优化多域对话系统的行为。

Nov, 2016

基于软件导师的不完美演示强化学习

本文研究了强化学习的探索效率问题。提出了一种基于专家演示的强化学习方法，通过将专家指导视为对智能体政策探索的软约束，最终转化为一个约束优化问题，并采用局部线性搜索来高效解决。在广泛的基准测试中，我们的方法比其他方法获得了更好的结果。

Nov, 2019

大型领域对话管理中的封建强化学习

本文提出了一种以 Feudal RL 为基础的对话管理架构，利用领域本体结构信息抽象出对话状态空间，并在不需要额外奖励信号的情况下，在几个对话领域和环境中显著优于先前的最新成果。

Mar, 2018

深度强化学习下面向对话状态跟踪和管理的端到端学习

该论文提出了一个基于 Deep Recurrent Q-Networks 变体的端到端对话系统框架，使用强化学习与监督学习的混合算法，在 20 Questions 游戏模拟器上的实验结果表明，该模型优于基线模型，并学习了潜在对话状态的分布式表示。

Jun, 2016

指引我们：从演示中学习对话管理

我们对第八次对话系统技术挑战赛的端到端多域对话跟踪进行了提交。我们的系统采用管道架构，包含自然语言理解、对话状态跟踪、对话管理和自然语言生成等组件。我们利用基于示范的深度 Q 学习强化学习算法来学习对话策略，并通过对话管理组件的评估表明该方法的有效性优于监督和强化学习基线模型。

Apr, 2020

通过有限的演示学习复杂的操作技能的确定性策略

提出了一种名为 TD3fG 算法的新算法，旨在通过学习经验和专家的有机转换，帮助代理从低质量和不充分的演示中提取先前的知识，从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。

Mar, 2023

利用演示来解决机器人问题中稀疏奖励的深度强化学习

本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法，通过人体运动学控制收集演示并不需要专门设计的奖励函数，可应用于插入操作等实际机器操作中。

Jul, 2017

为什么导向式对话策略学习表现良好？理解对抗性学习及其替代方案的作用

本文介绍了一种通过分析对话策略和奖励估计器的目标函数，从而消除对抗性学习对奖励估计和对话策略学习的影响，同时保留其优势的方法，该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。

Jul, 2023

使用深度强化学习学习协作视觉对话代理

本文介绍了一种基于深度强化学习的视觉问答和对话代理训练方法，通过协作游戏中的自然语言对话，演示了 'visual' 对话代理具有自主创建基于视觉属性的语言和沟通的能力，并发现强化学习有助于代理人的团队合作，促进信息交流和提高效率。

Mar, 2017