May, 2024

UDUC: 基于不确定性驱动的学习鲁棒控制方法

TL;DR通过引入基于不确定性驱动的鲁棒控制损失 (UDUC) 作为概率集合模型的替代目标,并受对比学习的启发,我们分析了 UDUC 损失的鲁棒性,并评估其在具有显著环境不匹配的挑战性实际强化学习基准 (RWRL) 上的性能。