Feb, 2024

通过积极查询进行人类反馈强化学习

TL;DR提出了一种基于主动学习的 RLHF 方法,通过半数查询获得与最先进的 DPO 方法相当的性能。