ACLMay, 2023
RL4F: 利用强化学习生成自然语言反馈以修复模型输出
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs
Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark...
TL;DR本文提出了一种名为 RL4F 的多智能体协作框架,该框架使用强化学习训练评论生成器,使其能够优化 GPT-3 模型的性能,从而改进模型的输出效果,并在三个数据集上展示了平均提高了约 5% 的文本相似性度量。