Apr, 2020
无需对抗性学习的引导式对话策略学习
Guided Dialog Policy Learning without Adversarial Learning in the Loop
Ziming Li, Sungjin Lee, Baolin Peng, Jinchao Li, Julia Kiseleva...
TL;DR提出了一种将对抗训练分解成两步的方法,通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中,以引导对话策略学习。该方法适用于在线和离线强化学习方法,可获得显著的任务成功率,并有将知识从现有领域转移到新领域的潜力。