Aug, 2024

基于偏好的强化学习进展:综述

TL;DR该研究解决了强化学习中对准确设计奖励函数的依赖问题,通过利用人类偏好作为反馈,提升学习效率。论文提出了一个统一的基于偏好的强化学习框架,并详细审视了理论保证及实际应用,指出了当前研究的局限性及未来研究方向。该工作有助于推动基于偏好的强化学习在复杂任务中的应用及发展。