Oct, 2023

守口如瓶:从人类反馈中减轻强化学习的长度偏差

TL;DR通过使用 “Product-of-Experts(PoE)” 技术,我们提出了一种创新的解决方案,将奖励建模与序列长度的影响相分离,从而使语言模型的性能得到提升。