并发强化学习中的可扩展协调探索

NIPSMay, 2018

并发强化学习中的可扩展协调探索

Scalable Coordinated Exploration in Concurrent Reinforcement Learning

Maria Dimakopoulou, Ian Osband, Benjamin Van Roy

TL;DR在一个公共环境下，考虑一组同时运行的强化学习智能体，我们提出了一种适用于实际规模问题的高效协同探索方法，该方法建立在种子抽样和随机值函数学习的基础上，并证明该方法在简单表格式上与先前提出的表格式学习方法相当竞争力，在高维度问题和神经网络值函数表示的情况下，该方法可以通过使用更少的代理学习更快地进行探索比替代方法。

Abstract

We consider a team of reinforcement learning agents that concurrently operate in a common environment, and we develop an approach to efficient coordinated exploration that is suitable for problems of practical scale. Our approach builds on →

reinforcement learning coordinated exploration seed sampling randomized value function learning neural network

发现论文，激发创造

合作多智体强化学习中的随机探索

我们提出了第一个关于合作多智能体强化学习（MARL）中可证明效率的随机探索的研究，提出了一种统一的随机探索算法框架，以及两种基于 Thompson Sampling（TS）的算法。我们在多个并行强化学习环境中评估了我们的方法，包括深度探索问题，视频游戏和能源系统中的一个实际问题。实验证明，我们的框架即使在过渡模型误指定的条件下，也能达到更好的性能，此外，我们还建立了我们统一框架与联邦学习的实际应用之间的联系。

Apr, 2024

随机数值函数的深度探索

本研究探讨了随机价值函数在强化学习中引导深度探索的使用，证明了其在合成统计上和计算效率上与常见的实用价值函数学习方法的探索的优越性，并通过计算实验证明了其有效性，并证明了在表格表示下的统计效率的遗憾界（regret bound）

Mar, 2017

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

强化学习的组合探索优化

在解决复杂优化问题方面，探索式组合优化（ECO-DQN）通过连续改进解决方案，从而有效地学习有效的启发式方法来解决图上的组合优化问题，并在最大割问题上展示了最先进的强化学习性能。

Sep, 2019

竞争中的协同涌现

通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境，我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步：从随机的行为到简单的球追逐，最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案，可以在没有预定义评估任务或人类基准的情况下评估代理的性能。

Feb, 2019

多智能体深度强化学习的协作探索

本文提出协作多智能体探索（CMAE）方法，通过归一化熵技术从多个状态空间中选择目标，实现智能体之间探索的协调性，取得了多项任务的良好表现。

Jul, 2021

带有函数逼近的可证明高效合作多智能体强化学习

本文介绍了采用价值迭代和信息交流来解决固定通信预算下，多智能体强化学习问题，并证明了在有限信息交流的异构合作场景下，可以实现 Pareto 最优无悔学习。这个工作将多智能体情境和多武器武装带宽文献中的几个思想推广到了 MDP 和强化学习领域。

Mar, 2021

针对协作式多智能体强化学习的可扩展价值分解探索算法

本文提出了一种可扩展的价值分解探索方法（SVDE），包括可扩展的训练机制、内在奖励设计和探索性经验回放，以加速样本生成并改善探索问题。实验结果显示，在 StarCraft II 微观管理游戏中，该方法在几乎所有地图上实现了最佳性能。

Mar, 2023

去中心化多 Agent 协同探索中的新颖性共享

提出一种名为 MACE 的简单而有效的多智能体协同探索方法，通过仅传递本地新奇性，代理可以考虑其他代理的本地新奇性来近似全局新奇性，并引入加权互信息来衡量代理行为对其他代理累积新奇性的影响，在后见中将其转换为内在奖励，以鼓励代理对其他代理的探索产生更多影响并促进协同探索，并在三个稀疏奖励的多智能体环境中展示了 MACE 在性能上的优越性。

Feb, 2024