ICLRDec, 2023

利用离散表示进行连续强化学习

TL;DR通过对离散表示法进行彻底的实证研究,我们发现,与传统连续表示法相比,在世界模型学习、无模型强化学习和连续强化学习问题中,将观测数据表示为分类值向量能更准确地模拟世界,并且使用离散表示法训练的智能体能够更好地学习策略和使用更少的数据,在连续强化学习中表现出更快的适应性。此外,我们的分析表明,性能改进可能归因于潜在向量中包含的信息和离散表示本身的编码方式。