Aug, 2024

多样专家策略生成的帕累托逆强化学习

TL;DR本研究解决了现有数据驱动的强化学习和模仿学习方法在面对有限专家数据集时无法学习帕累托最优策略的问题。本文提出了一种帕累托逆强化学习框架(ParIRL),通过对不同专家偏好的两个数据集的利用,从而生成适应多目标的政策集。实验结果表明,ParIRL在多个多目标控制任务中表现优异,有效逼近帕累托前沿,并在CARLA仿真中验证了其在自动驾驶领域的应用潜力。