EMNLPOct, 2023

利用离线强化学习构建具有一致性个性的对话代理

TL;DR通过使用离线强化学习框架提高对话系统的人物一致性,结合监督学习的现有数据训练和奖惩特定话语,引入简化的重要性采样方法,可以改善社交聊天机器人的人物一致性和对话质量。