Aug, 2023

BarlowRL: 针对数据效率的强化学习的 Barlow 双胞胎

TL;DRBarlowRL 结合 Barlow Twins 自监督学习框架与 DER 算法,是一种高效利用数据的强化学习代理,在 Atari 100k 基准测试中表现优于 DER 和其对比算法 CURL。BarlowRL 通过在整个空间内强制信息传播来避免维度趋于坍缩,帮助 RL 算法利用均匀分布的状态表示,从而取得显著的性能提高。结合 Barlow Twins 与 DER 实现了数据效率的提升,并在 RL 任务中取得了卓越的性能,展示了将自监督学习技术整合到改进 RL 算法中的潜力。