Dec, 2023

MaDi:学习遮蔽干扰项以实现视觉深度强化学习的泛化能力

TL;DRMaDi 是一种基于奖励信号学习屏蔽干扰的算法,通过使用一个轻量级的神经网络生成动态的遮罩,让深度强化学习代理能够集中学习任务,从而改善了代理的焦点和泛化能力。