Nov, 2017

任务导向对话系统中深度强化学习的高效探索

TL;DR提出了一种新的探索算法,基于 Bayes-by-Backprop 神经网络和重放缓冲区,可以大大提高深度 Q 学习在对话系统中的效率并比传统的探索策略学习得更快。