EMNLPApr, 2018

分层对话策略学习的子目标发现

TL;DR提出了一种分而治之的方法,利用 Subgoal Discovery Network 将复杂目标定向任务分解为一组较简单的子目标,并使用这些子目标通过分层强化学习来学习多级策略,建立了对话代理程序,已应用于旅行计划中,其学习到的子目标通常易于被人理解。