分层对话策略学习的子目标发现

EMNLPApr, 2018

Subgoal Discovery for Hierarchical Dialogue Policy Learning

Da Tang, Xiujun Li, Jianfeng Gao, Chong Wang, Lihong Li...

TL;DR提出了一种分而治之的方法，利用 Subgoal Discovery Network 将复杂目标定向任务分解为一组较简单的子目标，并使用这些子目标通过分层强化学习来学习多级策略，建立了对话代理程序，已应用于旅行计划中，其学习到的子目标通常易于被人理解。

Abstract

Developing agents to engage in complex goal-oriented dialogues is challenging partly because the main learning signals are very sparse in long conversations. In this paper, we propose a divide-and-conquer approach that discovers and exploits the hidden structure of the task to enable e

goal-oriented dialogues sparse learning signals subgoal discovery network hierarchical reinforcement learning travel planning

发现论文，激发创造

可解释的多层子目标发现强化学习

提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Feb, 2022

层次深度强化学习下的复合任务完成对话策略学习

本文针对复杂任务对话代理的构建问题，如旅行规划，通过将任务公式化为基于马尔可夫决策过程的选项数学框架，并提出一种层次深度强化学习方法来学习不同时间尺度上运行的对话管理器，包括顶层对话策略、低层对话策略和全局状态跟踪器，实验结果表明该方法在模拟和真实用户的旅行规划任务中，相比于三个基于手工规则和基于平面深度强化学习的基准系统，有显著的改进。

Apr, 2017

无监督学习层次化对话结构

这项工作引入了一种无监督的学习层次对话结构的方法，包括对话行为和子任务。结构显示对于三个会话级理解任务，包括对话模型的优化是有用的。此外，通过自动摘要，学习的有限状态子对话网络是可解释的。

May, 2022

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

基于分层强化学习的对话管理子域建模

本文提出在多领域对话管理中使用分层强化学习和选项框架的方法，并且与现有平面方法相比学习速度更快且得到更好的结果，同时展示预训练策略如何适应更复杂的对话系统并为更复杂的多领域对话系统提供政策优化的可能性。

Jun, 2017

使用图神经网络的结构化分层对话策略

通过引入计算图神经网络，本文提出了可用于解决餐厅预订等复合型任务的层次式深度强化学习新方法，并在实验中展示其相较于传统方法更高的采样效率、更好的噪声抵抗力和更好的模型迁移性能。

Sep, 2020

中途休息：探究分层脚本生成中的子目标

本文从认知理论的角度扩展了目标导向脚本生成的任务，并提出了基于子目标的层次化组织方法。研究者们贡献了一个新的数据集，并提出了几种基线方法和评估指标，表明了子目标与层次化脚本生成的有效性。此外，研究者们还设计和评估了发现子目标的模型，并发现此过程比从分段步骤中进行摘要更加困难。

May, 2023

面向多领域和多任务对话的少样本结构化策略学习

本研究旨在探讨使用结构化政策提高在多领域和多任务环境下的强化学习样本效率。作者在测试不同结构化水平时，发现图形神经网络具有优势，且建议未来的研究应聚焦于连接人类数据、模拟器和自动评估器。

Feb, 2023

战略对话的分层文本生成与规划

本论文介绍了一种学习对话信息表征、提高决策效率的方法，通过解耦对话表述中的语义和语言实现，使用学习到的表征完成对话生成、规划和增强学习等任务，在实验中效果比之前的工作更佳。

Dec, 2017

神经模块化控制 —— 为具身问答而生

该研究提出了一种模块化的方法，利用语言输入学习长期规划的导航策略。他们的分层策略在多个时间尺度上运行，并使用模块化和语义子目标，通过模仿学习和强化学习相结合的方法在 EQA 基准上表现出色，无论是在导航还是问题回答方面均优于前人工作。

Oct, 2018