Nov, 2023

通过少量专家示范融合奖励函数,实现忠实准确的知识导向对话生成

TL;DR开发值得信赖的对话式信息搜索系统依赖于能够基于相关知识文本生成忠实准确响应的对话模型。我们通过引入一种新的奖励函数利用强化学习算法来克服数据偏见和冗余信息的两个主要挑战,并在两个对话式信息搜索数据集上的实证实验中展示了我们的方法可以与其他强大的监督学习基准相竞争。