该论文提出了一个基于Deep Recurrent Q-Networks变体的端到端对话系统框架,使用强化学习与监督学习的混合算法,在20 Questions游戏模拟器上的实验结果表明,该模型优于基线模型,并学习了潜在对话状态的分布式表示。
Jun, 2016
提出了一种基于神经网络框架的分层学习方法,通过监督学习和强化学习相结合,实现了对话管理任务中的有效性以及在高噪声的情况下提高性能。
本文提出使用训练有优势actor-critic方法的深度策略网络统计优化对话系统,演示了在深度强化学习下优于高斯过程方法,可以有效地训练部分可观察马尔可夫决策过程的对话系统,有效提高学习速度,所有实验在DSTC2餐厅领域数据集上进行。
本文介绍了一种基于深度强化学习的方法,使用策略梯度算法来优化基于任务且与视觉相关的对话,该方法在通过Mechanical Turk收集的12万个对话数据集上进行了测试,并提供了鼓舞人心的结果,可以解决生成自然对话和在复杂图像中发现特定对象的问题。
Mar, 2017
本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法,解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题,同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中,其关键在于通过深度RL来同时优化对话代理和用户模拟器的对话策略,并且对话代理和用户模拟器均建立在端到端的神经网络模型上。
Sep, 2017
本文探究深度强化学习方法解决在口语对话系统的策略优化问题,通过结合多种方法提出ACER算法以显著提高训练效率和应用范围。
Feb, 2018
本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统,该方法包括强化学习和模仿学习,通过神经网络来优化并能够从用户教学中进行学习。实验结果表明,该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误,并在模仿学习阶段之后应用强化学习提高完成任务的能力。
Apr, 2018
本文提出了一种利用层次强化学习方法及潜在会话行为来设计任务导向的对话系统,可有效解决以前使用监督学习和强化学习训练的模型在用户请求满足和生成系统话语的可理解性之间难以平衡的问题,并在测试中与其他模型相比获得了更好的性能表现。
Jun, 2020
本文提出了一种用于任务型对话系统的对话多样化方法,该方法有效地控制了多样化的质量,并且与多个用户模型的交互有助于增强深度强化学习代理的能力,从而提高了对话代理的性能。
Jun, 2021
本文综述了基于强化学习的对话策略学习中的最新进展和挑战,并将近期方法归类为强化学习的基本元素,以期为未来的对话管理研究提供一些启示。
Feb, 2022