口语对话系统中基于在线主动奖励学习的策略优化

ACLMay, 2016

口语对话系统中基于在线主动奖励学习的策略优化

On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems

Pei-Hao Su, Milica Gasic, Nikola Mrksic, Lina Rojas-Barahona, Stefan Ultes...

TL;DR该论文提出了一种在线学习框架，其中对话策略通过使用高斯过程模型进行主动学习来一起与奖励模型进行联合训练。这个高斯过程是在使用递归神经网络编码器 - 解码器以无监督的方式生成的连续空间对话表示上操作的，旨在显著减少数据注释成本并减轻对话策略学习中的嘈杂用户反馈。

Abstract

The ability to compute an accurate reward function is essential for optimising a dialogue policy via reinforcement learning. In real-world applications, using explicit user feedback as the reward signal is often

dialogue policy reinforcement learning active learning gaussian process model unsupervised learning

发现论文，激发创造

无需对抗性学习的引导式对话策略学习

提出了一种将对抗训练分解成两步的方法，通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中，以引导对话策略学习。该方法适用于在线和离线强化学习方法，可获得显著的任务成功率，并有将知识从现有领域转移到新领域的潜力。

Apr, 2020

引导式对话策略学习：针对多领域任务导向型对话的奖励估计

该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法，该算法可以在多领域任务导向对话中进行奖励估计和策略优化，以实现有效的对话，并在多领域对话数据集上进行广泛实验。

Aug, 2019

使用策略梯度的端到端离线目标导向型对话策略学习

本文提出了一种离线强化学习方法，可从未标注的语料库中学习，既可以在话语级别上进行优化又可以在对话级别上进行优化，解决了现有方法对话级别考虑不足的问题，并使用了一种新的奖励函数和在线 / 离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。

Dec, 2017

面向任务的神经对话模型的对抗学习

本文介绍了一种使用对抗性学习方法进行奖励估计的强化学习（RL）的任务导向型对话模型，该方法在一个餐厅搜索场景中实现了较高的对话成功率。

May, 2018

高斯过程强化学习实现的对话管理领域适应性

本文探讨了使用高斯过程强化学习扩展多个对话领域的方法，这是一种优雅的框架，自然支持多个方法，包括先前的知识，贝叶斯委员会机器和多智能体学习，用于促进可扩展和适应性对话系统。

Sep, 2016

通过随机奖励估计的半监督对话策略学习

本文提出了用于半监督策略学习的新型奖励学习方法，该方法借助动态模型来计算奖励值，并结合动作嵌入进行奖励函数的泛化，从而优于其他竞争性策略学习基线，适用于任务导向型对话系统。

May, 2020

基于角色感知奖励分解的多智能体面向任务的对话策略学习

本文介绍了一种采用多智能体对话策略学习的方法，用于同时训练系统和用户策略，并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明，该方法能够通过对话交互，使两个智能体成功完成任务。

Apr, 2020

基于主动偏好的高斯过程回归用于奖励学习

本文介绍了一种基于用户反馈的偏好学习方法，利用高斯过程 (GP) 对奖励函数进行建模，在不增加结构限制并避免数据不足和刚性的问题的情况下，仅通过比较轨迹即可有效学习机器人任务的表达性奖励函数。

May, 2020

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

持续学习神经对话管理

提出了一种基于神经网络框架的分层学习方法，通过监督学习和强化学习相结合，实现了对话管理任务中的有效性以及在高噪声的情况下提高性能。

Jun, 2016