Aug, 2024

S-EPOA:通过技能驱动的基于偏好的强化学习克服注释不可分性

TL;DR本研究解决了传统基于偏好的强化学习中注释不可分性的问题。提出的技能增强偏好优化算法(S-EPOA)通过将技能机制整合到偏好学习框架中,从而改进了学习效率和鲁棒性。实验结果表明,与传统方法相比,S-EPOA在机器人操控和行走等任务上具有显著优势。