EMNLPAug, 2018

区分性深层 Dyna-Q: 对话策略学习的强韧规划

TL;DR本文提出了一种判别式深度 Dyna-Q (D3Q) 方法来提高 Deep Dyna-Q (DDQ) 框架在任务完成对话策略学习中的有效性和鲁棒性。通过整合基于 RNN 的鉴别器来控制训练数据的质量,实验表明与 DDQ 相比,D3Q 的性能得到了显著提高,并在领域扩展实验中进一步证明了 D3Q 的有效性和鲁棒性。