Jan, 2024

定时奇异 - 深度动态 Q: 对话策略学习的高效探索

TL;DR基于 Deep Dyna-Q (DDQ) 模型的好奇心驱动的课程学习框架,通过计划学习和好奇心的引入,在任务导向的对话代理培训过程中获得显著改进,并发现了易先与难先策略更适合 SC-DDQ 和 DDQ。