ACLApr, 2020

提高回复和角色真实事实之间的事实一致性

TL;DR通过增加奖励机制,使用强化学习方法来提高响应与用户角色特征事实之间的一致性,从而促进神经模型的响应生成能力。