Jan, 2024

定时奇异-深度动态Q:对话策略学习的高效探索

TL;DR基于Deep Dyna-Q (DDQ)模型的好奇心驱动的课程学习框架,通过计划学习和好奇心的引入,在任务导向的对话代理培训过程中获得显著改进,并发现了易先与难先策略更适合SC-DDQ和DDQ。