BriefGPT.xyz
Ask
alpha
关键词
offline rl framework
搜索结果 - 1
EMNLP
利用离线强化学习构建具有一致性个性的对话代理
通过使用离线强化学习框架提高对话系统的人物一致性,结合监督学习的现有数据训练和奖惩特定话语,引入简化的重要性采样方法,可以改善社交聊天机器人的人物一致性和对话质量。
PDF
9 months ago
Prev
Next