通过积极查询进行人类反馈强化学习

Feb, 2024

通过积极查询进行人类反馈强化学习

Reinforcement Learning from Human Feedback with Active Queries

Kaixuan Ji, Jiafan He, Quanquan Gu

TL;DR提出了一种基于主动学习的RLHF方法，通过半数查询获得与最先进的DPO方法相当的性能。

Abstract

Aligning large language models (LLM) with human preference plays a key role in building modern generative models and can be achieved by reinforcement learning from →