Jul, 2024

基于策略和主动学习的经济高效的代理奖励模型构建

TL;DR使用成本效益的代理奖励机制和主动学习,针对强化学习与人类反馈模型,最小化专家查询成本,并有效标记更多的偏好数据进行模型训练。