ICCVAug, 2023

通过基于冲突感知的梯度协调增强来改进视觉强化学习中的泛化性能

TL;DR在视觉强化学习中,学习具有出色泛化能力以适应未知环境仍然具有挑战性但至关重要。本文提出了一种名为 CG2A 的通用策略梯度优化框架,将增强组合更好地融入视觉强化学习算法来解决泛化偏差问题,通过发展梯度协议求解器和引入软梯度手术策略来改善颇具变化的梯度幅度和梯度冲突。大量实验证明 CG2A 显著提高了视觉强化学习算法的泛化性能和样本效率。