BriefGPT.xyz
Ask
alpha
关键词
policy identification algorithm
搜索结果 - 1
不需要奖励推断的人类反馈强化学习:无模型算法与实例相关分析
通过开发一种无模型的强化学习方法,本研究以人类反馈为基础,通过对动作进行对抗性竞争,提出了一个可直接从人类偏好信息中识别最佳策略的 RLHF 算法,证明了在样本复杂度方面 RLHF 并不比传统强化学习更困难,并且通过规避奖励推断中的问题,如
→
PDF
25 days ago
Prev
Next