Nov, 2023

通过 RL 对想象中的对话进行零样本目标导向对话

TL;DR通过使用强化学习进行交互式对话的目标导向任务,本研究提出利用大型语言模型生成可能的交互示例,再通过强化学习算法优化这些示例,以实现更优化的交互能力,从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。