May, 2022

通过优势学习施行 KL 正则化的一般 Tsallis 熵强化学习

TL;DR通过强制隐式 Kullback-Leibler(KL)正则化来提高 Maximum Tsallis entropy(MTE)框架对非闭合形式 Tsallis 熵的误差鲁棒性。提出的 Tsallis Advantage Learning(TAL)方法在广泛的实验中得到验证,不仅在各种非闭合形式的 Tsallis 熵上显著优于 Tsallis-DQN,而且表现出与最先进的 Shannon 熵算法相当的性能。