Aug, 2016

BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索

TL;DR该研究提出了一种新算法,通过 Thompson 采样和 Bayes-by-Backprop 神经网络,可以显著提高深度 Q 学习代理在对话系统中的探索效率,并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。