ACLJan, 2018
深度 Dynq-Q: 任务完成对话策略学习中计划的集成
Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning
Baolin Peng, Xiujun Li, Jianfeng Gao, Jingjing Liu, Kam-Fai Wong...
TL;DR通过 Deep Dyna-Q 的强化学习框架进行对话策略学习,将对真实用户的模拟与生成的体验相结合,应用于模拟和 Human in the loop 设置中的电影票预订任务。