AAAINov, 2018

基于交换机的主动式深度 Dyna-Q: 用于任务完成对话策略学习的高效自适应规划

TL;DR本研究使用强化学习训练任务完成对话代理人,在集成世界模型的基础上通过使用模拟经验有效提高训练效率,通过引入开关和主动学习改进 Deep Dyna-Q 框架,提出了 Switch-based Active Deep Dyna-Q(Switch-DDQ)算法,同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。