Feb, 2024

RLHF中部分观测的奖励状态框架

TL;DR通过模型化部分观察到的奖励状态对强化学习从人类反馈中进行建模,并通过减少基于人类反馈的两种主要形式(基数反馈和对战反馈)到部分观测到的奖励状态强化学习的归约,来提出了有效的统计算法。