EMNLPDec, 2020

通过强化学习和人类示范来减少说服对话中的重复和不一致性

TL;DR本文通过引入强化学习(RL)进行用户交互训练,实现了一个更加人性化的劝说对话系统,并成功在捐赠劝说任务中取得了优于先前最先进的对话模型的表现。