EMNLPOct, 2020

离线强化学习下的以人为中心的对话训练

TL;DR通过在线收集人类反馈数据,使用离线强化学习算法训练对话模型,识别并融合对话线索来产生更好的对话。