Mar, 2024

离线强化学习的优势感知策略优化

TL;DR离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互,以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的 Advantage-Aware Policy Optimization (A2PO) 方法,用于在混合质量数据集下明确构建基于优势感知的策略约束进行离线学习。通过使用条件变分自编码器 (CVAE) 来解开错综复杂的行为策略的动作分布,并将所有训练数据的优势值建模为条件变量,A2PO 可以遵循这种解开的行为分布约束来优化面向高优势值的策略。在 D4RL 基准测试中,对单一质量和混合质量的数据集进行的广泛实验表明,A2PO 的结果优于现有的最先进的对手。我们的代码将公开发布。