Nov, 2017
任务导向对话系统中深度强化学习的高效探索
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems
Zachary Lipton, Xiujun Li, Jianfeng Gao, Lihong Li, Faisal Ahmed...
TL;DR提出了一种新的探索算法,基于 Bayes-by-Backprop 神经网络和重放缓冲区,可以大大提高深度 Q 学习在对话系统中的效率并比传统的探索策略学习得更快。