Aug, 2024

通过软约束对抗者实现稳健的离线强化学习

TL;DR本研究针对当前离线强化学习算法在面对长期关系下对抗者的相互依赖性和基于$L_p$范数的扰动假设的局限性,提出了新的视角:基于已知分布的f散度约束问题。通过该方法,我们推导出了两种典型攻击及其相应的稳健学习框架,实验结果表明所提方法在样本效率上表现优异。