Jan, 2024

因果协同并行强化学习

TL;DR提出了一种用于数据共享和协调探索的新型算法框架,旨在在并发强化学习设置下学习更加数据高效和性能更好的策略,通过引入因果推断算法提取模型参数,并基于其相似度提出了一种新的数据共享方案,证明了在一组自回归、摆杆和倒立摆任务上具有更快学习速度,展示了在稀疏奖励环境下常规智能体之间多样化行动选择的有效性。