Oct, 2023

RLHF中的长度相关性研究

TL;DR通过针对回应长度进行优化,研究表明强化学习从人类反馈中能够取得显著的改进,该研究还探索了其他方法以在不增加长度的情况下实现模型性能的提升,并发现了回应长度在奖励模型方面的相关性。