Jan, 2024
定时奇异 - 深度动态 Q: 对话策略学习的高效探索
Scheduled Curiosity-Deep Dyna-Q: Efficient Exploration for Dialog Policy Learning
Xuecheng Niu, Akinori Ito, Takashi Nose
TL;DR基于 Deep Dyna-Q (DDQ) 模型的好奇心驱动的课程学习框架,通过计划学习和好奇心的引入,在任务导向的对话代理培训过程中获得显著改进,并发现了易先与难先策略更适合 SC-DDQ 和 DDQ。