May, 2022

Q-Munchausen 强化学习

TL;DR本文针对Munchausen强化学习在Tsallis sparsemax策略下无法表现出优越性能的问题,提出了基于Tsallis Entropy的$q$-logarithm/exponential方法,解决了传统logarithm和非logarithmic Tsallis entropy之间的不匹配问题,使M-RL能在Tsallis entropy框架下实现隐式的KL规则正化,同时在标准测试问题上取得了超越表现。