AAAINov, 2017

神经对话模型中的在线响应选择定制非线性赌博机

TL;DR本文提出了一种基于分布式文本表示的上下文多臂老虎机模型和定制的 Thompson 采样方法,用于在线学习检索式对话系统的响应选择,实验结果表明相较于传统的线性上下文多臂老虎机方法,该方法在 Ubuntu 对话语料库中获得了显著的性能提升。