深度强化学习下面向对话状态跟踪和管理的端到端学习

Jun, 2016

深度强化学习下面向对话状态跟踪和管理的端到端学习

Towards End-to-End Learning for Dialog State Tracking and Management using Deep Reinforcement Learning

Tiancheng Zhao, Maxine Eskenazi

TL;DR该论文提出了一个基于Deep Recurrent Q-Networks变体的端到端对话系统框架，使用强化学习与监督学习的混合算法，在20 Questions游戏模拟器上的实验结果表明，该模型优于基线模型，并学习了潜在对话状态的分布式表示。

Abstract

This paper presents an end-to-end framework for task-oriented dialog systems using a variant of deep recurrent q-networks (DRQN). The model is able to interface with a relational database and jointly learn polici

发现论文，激发创造

基于端到端LSTM的对话控制优化-监督学习与强化学习

该论文提出了一种用于端到端学习任务导向型对话系统的模型，主要组成部分是一种递归神经网络(LSTM)，该网络将原始对话直接映射到系统动作的概率分布中，并且可以使用有目的、强化两种不同方式的优化方法。

Jun, 2016

持续学习神经对话管理

提出了一种基于神经网络框架的分层学习方法，通过监督学习和强化学习相结合，实现了对话管理任务中的有效性以及在高噪声的情况下提高性能。

Jun, 2016

混合编码网络：具备监督和强化学习的实用高效端到端对话控制

Hybrid Code Networks (HCNs) combine recurrent neural networks (RNNs) with domain-specific knowledge, reducing the training data needed for dialog systems while retaining the benefit of inferring a latent representation of dialog state.

Feb, 2017

目标驱动和视觉对话系统的全流程优化

本文介绍了一种基于深度强化学习的方法，使用策略梯度算法来优化基于任务且与视觉相关的对话，该方法在通过Mechanical Turk收集的12万个对话数据集上进行了测试，并提供了鼓舞人心的结果，可以解决生成自然对话和在复杂图像中发现特定对象的问题。

Mar, 2017

端到端可训练任务导向神经对话模型中的迭代策略学习

本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法，解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题，同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中，其关键在于通过深度RL来同时优化对话代理和用户模拟器的对话策略，并且对话代理和用户模拟器均建立在端到端的神经网络模型上。

Sep, 2017

基于深度强化学习的任务导向对话模型端到端优化

介绍了一种基于神经网络的任务导向对话系统，可以使用深度强化学习进行端到端优化，可跟踪对话状态，与知识库交互，并将查询结果整合到代理人的响应中，以成功完成任务导向对话。

Nov, 2017

使用多个答案学习端到端面向目标的对话

该研究工作关注基于目标导向的对话系统中的问题，提出了一种使用监督学习和强化学习方法的新方法，并引入了多个有效的下一个话语来评估具有更现实设置的目标导向性对话系统。通过引入多种有效的下一个话语，该文改进了原始bAbI对话任务，现有的端到端神经方法的表现从原始bAbI对话任务的81.5%下降到permuted-bAbI对话任务的30.3%，而其提出的方法则取得了47.3%的准确度。

Aug, 2018

指引我们：从演示中学习对话管理

我们对第八次对话系统技术挑战赛的端到端多域对话跟踪进行了提交。我们的系统采用管道架构，包含自然语言理解、对话状态跟踪、对话管理和自然语言生成等组件。我们利用基于示范的深度 Q 学习强化学习算法来学习对话策略，并通过对话管理组件的评估表明该方法的有效性优于监督和强化学习基线模型。

Apr, 2020

对话管理综述：最新进展与挑战

本文综述了对话管理的三个关键主题：模型可扩展性的提高、对话策略学习的数据稀缺问题和训练效率的提高，以及它们对任务完成性能的影响。

May, 2020

定时奇异-深度动态Q:对话策略学习的高效探索

基于Deep Dyna-Q (DDQ)模型的好奇心驱动的课程学习框架，通过计划学习和好奇心的引入，在任务导向的对话代理培训过程中获得显著改进，并发现了易先与难先策略更适合SC-DDQ和DDQ。

Jan, 2024