May, 2023

无悔在线强化学习中的对抗损失和转换

TL;DR本篇论文提出了一种在线学习算法,能够同时应对恶意对手的损失函数和状态转移,并且随着对手的恶意程度而平稳地增加遗憾,同时采用黑盒约简方法达到无需先验知识的效果。此外,本文还对算法进行了改进,在生成损失的环境易于控制的情况下可以实现较小的遗憾。