Feb, 2024

RLVF:无泛化的口头反馈学习

TL;DR在大语言模型中引入高级口头反馈以传达特定要求和偏好的能力是重要的,本文提出了一种名为C3PO的方法,通过生成小规模合成偏好数据集并最小化与原始模型的差异来有效地应用口头反馈,同时减少了过度泛化。