Feb, 2024

通过积极查询进行人类反馈强化学习

TL;DR提出了一种基于主动学习的RLHF方法,通过半数查询获得与最先进的DPO方法相当的性能。