BriefGPT.xyz
May, 2023
无悔在线强化学习中的对抗损失和转换
No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions
HTML
PDF
Tiancheng Jin, Junyan Liu, Chloé Rouyer, William Chan, Chen-Yu We...
TL;DR
本篇论文提出了一种在线学习算法,能够同时应对恶意对手的损失函数和状态转移,并且随着对手的恶意程度而平稳地增加遗憾,同时采用黑盒约简方法达到无需先验知识的效果。此外,本文还对算法进行了改进,在生成损失的环境易于控制的情况下可以实现较小的遗憾。
Abstract
Existing
online learning algorithms
for
adversarial markov decision processes
achieve ${O}(\sqrt{T})$
regret
after $T$ rounds of interacti
→