May, 2024

使用合成观测学习未来表示以提高效率的强化学习

TL;DR通过丰富辅助训练数据,提出了一种无需训练的方法来合成可能包含未来信息的观察,从而改进了强化学习中的辅助表示学习,并展示了其在连续控制和基于无动作视频演示的视觉预训练中的先进性能。