Mar, 2023

通过零样本可泛化奖励函数个性化任务对话系统

TL;DR本研究提出了一种名为P-ToD的新型框架,使用无监督学习的方法,使用零样本泛化奖励函数来实现个性化任务导向的对话系统,具有适应性强,并使用少量标记训练示例来微调模型。