Jan, 2024

增强端到端多任务对话系统:内在动机强化学习算法的研究,以改善训练和适应性

TL;DR通过采用内在激励强化学习算法来测量状态访问的频率和鼓励探索,本研究旨在改善对话系统的政策,继而有效提高性能指标并拓展领域范围。