动态对话策略的连续强化学习

Apr, 2022

Dynamic Dialogue Policy for Continual Reinforcement Learning

Christian Geishauser, Carel van Niekerk, Nurul Lubis, Michael Heck, Hsien-Chin Lin...

TL;DR为了解决任务导向的对话系统在学习新知识时需要不断适应的问题，我们提出了一种动态对话策略变换器 (DDPT)，它是一种能够无缝集成新知识、处理大状态空间并在暴露到未见过的领域时获得重要的零 - shot 性能的新的动态架构。我们提供一个不间断的学习算法、基线架构和度量标准来评估不间断学习模型。

Abstract

continual learning is one of the key components of human learning and a necessary requirement of artificial intelligence. As dialogue can potentially span infinitely many topics and tasks, a task-oriented dialogue syste

continual learning dialogue system reinforcement learning dynamic architecture zero-shot performance

发现论文，激发创造

使用强化学习进行开放式对话的动态规划

本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统，并在使用谷歌智能助手的实验中，使用众包数据进行训练，显著超越了强化模型，证明其对于自然人对话有较高的开放性和可行性。

Jul, 2022

持续学习神经对话管理

提出了一种基于神经网络框架的分层学习方法，通过监督学习和强化学习相结合，实现了对话管理任务中的有效性以及在高噪声的情况下提高性能。

Jun, 2016

任务导向对话系统中的持续学习

本文提出了一个能够让我们通过时间添加新的领域和功能而不需要付出整个系统重新训练的任务导向对话系统的连续学习基准。我们在四个不同的设置下连续地学习了 37 个领域，包括意图识别、状态跟踪、自然语言生成和端到端。此外，我们实现并比较了多个已有的持续学习基线，并提出了一种简单而有效的基于残余适配器的结构方法。我们的实验证明，所提出的结构方法和简单的回放策略表现相当好，但是它们都比多任务学习基线表现差，后者将所有数据一次性展示出来，这表明对话系统的连续学习是一项具有挑战性的任务。此外，我们还揭示了在参数使用和内存大小方面不同连续学习方法之间的几个权衡，这对任务导向对话系统的设计非常重要。我们还发布了所提出的基准测试以及几个基线，以推动更多的研究方向。

Dec, 2020

面向任务导向的对话策略学习中强化学习方法的最新进展和挑战综述

本文综述了基于强化学习的对话策略学习中的最新进展和挑战，并将近期方法归类为强化学习的基本元素，以期为未来的对话管理研究提供一些启示。

Feb, 2022

对话生成的深度强化学习

本研究基于强化学习，建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。

Jun, 2016

分布式结构化演员 - 评论家强化学习在通用对话管理中的应用

本篇论文主要探讨针对特定任务的语音对话系统，重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略，并以神经网络为函数逼近器的方式，探索深度强化学习算法在对话决策中的应用。

Sep, 2020

终身和持续学习对话系统

这本书介绍了一种新的对话系统学习方法，即通过自身与用户和环境的交互来学习，实现从用户和外部来源不断学习语言表达、词汇和 factual 知识、训练样本和会话技能等方面的持续改进。除了总体论述，书中还介绍了一些特定话题的持续学习方法，并探讨了未来研究的挑战。

Nov, 2022

面向对话代理的持续学习

本文介绍了一种基于最新的神经网络连续学习技术的领域无关的神经对话模型，同时提出了一种新颖的神经连续学习算法，能够以数据 - 效率的方式跨越不同任务积累技能，在客户支持领域通过从合成对话或人类之间的对话到人 - 计算机对话的连续技能转移来验证方法的功效。

Dec, 2017

强化学习任务导向对话管理基准测试环境

本文旨在提供用于对话模型开发与评估的一组具有挑战性的模拟环境，其中包括常用的参数算法和非参数算法，并使用公共 PyDial 工具包实现了这些环境和策略模型，以建立一个实验测试平台并促进可重现性的实验。

Nov, 2017

端到端可训练任务导向神经对话模型中的迭代策略学习

本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法，解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题，同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中，其关键在于通过深度 RL 来同时优化对话代理和用户模拟器的对话策略，并且对话代理和用户模拟器均建立在端到端的神经网络模型上。

Sep, 2017