ACLMay, 2016

口语对话系统中基于在线主动奖励学习的策略优化

TL;DR该论文提出了一种在线学习框架,其中对话策略通过使用高斯过程模型进行主动学习来一起与奖励模型进行联合训练。这个高斯过程是在使用递归神经网络编码器 - 解码器以无监督的方式生成的连续空间对话表示上操作的,旨在显著减少数据注释成本并减轻对话策略学习中的嘈杂用户反馈。