ACLMay, 2023

RL4F: 利用强化学习生成自然语言反馈以修复模型输出

TL;DR本文提出了一种名为 RL4F 的多智能体协作框架,该框架使用强化学习训练评论生成器,使其能够优化 GPT-3 模型的性能,从而改进模型的输出效果,并在三个数据集上展示了平均提高了约 5% 的文本相似性度量。