Oct, 2023

保持多样轨迹:促进连续控制中集合策略的探索

TL;DR通过使用深度强化学习和集成方法,我们提出了一种新的集成强化学习算法 TEEN,在实验证明 TEEN 相对于仅使用子策略能够增加集成策略的样本多样性,并且在性能上表现更好,平均而言 TEEN 在经过测试的代表性环境中比基线集成强化学习算法的性能提高了 41%。