Jan, 2024
因果协同并行强化学习
Causal Coordinated Concurrent Reinforcement Learning
Tim Tse, Isaac Chan, Zhitang Chen
TL;DR提出了一种用于数据共享和协调探索的新型算法框架,旨在在并发强化学习设置下学习更加数据高效和性能更好的策略,通过引入因果推断算法提取模型参数,并基于其相似度提出了一种新的数据共享方案,证明了在一组自回归、摆杆和倒立摆任务上具有更快学习速度,展示了在稀疏奖励环境下常规智能体之间多样化行动选择的有效性。