Jan, 2023

使用Tsallis KL散度的广义Munchausen强化学习

TL;DR该研究探讨了一种广义的KL散度,称为Tsallis KL散度,并将其应用于政策优化,通过将其与基于MVI的KL正则化相结合,证明该技术可有效提高35个Atari游戏的表现。