Sep, 2023
深度强化学习基于层次性弱偏好反馈
Deep Reinforcement Learning from Hierarchical Weak Preference Feedback
Alexander Bukharin, Yixiao Li, Pengcheng He, Weizhu Chen, Tuo Zhao
TL;DR通过排列的方式学习奖励函数,本研究提出了一个新的强化学习框架 - HERON,通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型,从而在处理复杂任务时减少了人工成本同时提高了性能。