并发强化学习中的可扩展协调探索
我们提出了第一个关于合作多智能体强化学习(MARL)中可证明效率的随机探索的研究,提出了一种统一的随机探索算法框架,以及两种基于 Thompson Sampling(TS)的算法。我们在多个并行强化学习环境中评估了我们的方法,包括深度探索问题,视频游戏和能源系统中的一个实际问题。实验证明,我们的框架即使在过渡模型误指定的条件下,也能达到更好的性能,此外,我们还建立了我们统一框架与联邦学习的实际应用之间的联系。
Apr, 2024
本研究探讨了随机价值函数在强化学习中引导深度探索的使用,证明了其在合成统计上和计算效率上与常见的实用价值函数学习方法的探索的优越性,并通过计算实验证明了其有效性,并证明了在表格表示下的统计效率的遗憾界(regret bound)
Mar, 2017
基于探索的深度强化学习方法对新环境具有良好的泛化能力,通过使用一种基于 Q 值分布集合的探索方法,该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。
Jun, 2023
本篇论文提出了一种基于强化学习和 UVFA 框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和 kNN 算法来构造一种内在奖励信号,以影响策略的学习方式,并在 Atari-57 游戏套件中得到了很好的表现结果。
Feb, 2020
在解决复杂优化问题方面,探索式组合优化(ECO-DQN)通过连续改进解决方案,从而有效地学习有效的启发式方法来解决图上的组合优化问题,并在最大割问题上展示了最先进的强化学习性能。
Sep, 2019
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
本文介绍了采用价值迭代和信息交流来解决固定通信预算下,多智能体强化学习问题,并证明了在有限信息交流的异构合作场景下,可以实现 Pareto 最优无悔学习。这个工作将多智能体情境和多武器武装带宽文献中的几个思想推广到了 MDP 和强化学习领域。
Mar, 2021
本文提出了一种可扩展的价值分解探索方法(SVDE),包括可扩展的训练机制、内在奖励设计和探索性经验回放,以加速样本生成并改善探索问题。实验结果显示,在 StarCraft II 微观管理游戏中,该方法在几乎所有地图上实现了最佳性能。
Mar, 2023
提出一种名为 MACE 的简单而有效的多智能体协同探索方法,通过仅传递本地新奇性,代理可以考虑其他代理的本地新奇性来近似全局新奇性,并引入加权互信息来衡量代理行为对其他代理累积新奇性的影响,在后见中将其转换为内在奖励,以鼓励代理对其他代理的探索产生更多影响并促进协同探索,并在三个稀疏奖励的多智能体环境中展示了 MACE 在性能上的优越性。
Feb, 2024