May, 2024

ADR-BC: 敌对密度加权回归行为克隆

TL;DR提出 ADR-BC,通过增强密度支持的行为克隆方法,优化策略并避免多步强化学习中的累积偏差,实验证明其在多个任务上均明显优于目前 state-of-the-art 的泛化 IL 基准 CEIL,并且在 Adroit 和 Kitchen 领域中使用真实奖励时比 Implicit Q Learning (IQL) 有 89.5% 的改进。