May, 2024

AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化

TL;DR本研究提出了一种解决隐式策略发现问题的方法,并通过优化问题的形式对其进行了描述。基于这个优化问题,我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard,它们继承了 IQL 中演员和评论家解耦的优势,并阐明了为什么 IQL 可以使用加权回归进行策略提取。实验结果表明,与 IQL 和 IDQL 相比,我们的方法保持了 IQL 的简单性并解决了隐式策略发现问题,在 D4RL 数据集上取得了与其他 SOTA 离线 RL 方法相媲美或更优的结果。特别是在 Antmaze 和 Adroit 等复杂的稀疏奖励任务中,我们的方法明显优于 IQL 和 IDQL。