分布式 POMDP 中利用离散通信减小返回差距

Aug, 2023

分布式 POMDP 中利用离散通信减小返回差距

Minimizing Return Gaps with Discrete Communications in Decentralized POMDP

Jingdi Chen, Tian Lan

TL;DR该论文研究了多智能体强化学习中部分可观察马尔可夫决策过程的沟通问题，提出了通过在线聚类问题将多智能体通信转化为离散通信方式，并结合强化学习使用正则化信息最大化损失函数进行优化，实验证明该方法在多智能体通信中能够以几位比特的自然可解释性消息实现接近最优的回报。

Abstract

Communication is crucial for solving cooperative Multi-Agent Reinforcement Learning tasks in partially-observable markov decision processes. Existing works often rely on black-box methods to encode local information/features into messages shared with other agents. However, such black-b

multi-agent reinforcement learning partially-observable markov decision processes quantitative guarantees online clustering problem discrete communication

发现论文，激发创造

多智能体强化学习在反向传播中的离散化方法的深度分析

在多智能体强化学习中，当智能体无法观察到完整的环境状态时，沟通是至关重要的。借助可微分的通信渠道允许梯度在智能体之间流动作为一种反馈的最常见方法；然而，当我们想要使用离散消息来减小消息大小时，这种方法面临挑战，因为梯度无法通过离散通信渠道传递。本文比较了几种最先进的离散化方法和一种新方法，并将比较应用于基于梯度的沟通学习，并在多个环境中进行了测试。此外，本文还提出了一种基于 DIAL 和 COMA 的沟通学习方法 COMA-DIAL，该方法通过学习率缩放和适应性探索进行了扩展，使我们能够在更复杂的环境中进行实验。实验结果表明，本文提出的新方法 ST-DRU 在各种环境中都取得了最佳结果，每个实验中的表现最好或接近最佳，并且是唯一一个在任何测试环境中都没有失败的方法。

Aug, 2023

带有性能保证的 ρ-POMDP 中的测量简化

该研究论文介绍了一种有效的决策制定方法，通过对高维观测空间进行划分，并利用这种划分提出了分析边界，以求得期望的信息论奖励，进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善，在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。

Sep, 2023

分布式离线增强学习的通信复杂度问题

探讨了一种新颖的离线强化学习设置，其中多台分布式机器共同合作解决问题，但只允许一轮通讯，并且总信息传输量受到预算限制。对于上下文平滑贝叶斯推断、拟合普通线性模型和高斯过程这些问题，在信息论上建立了分布式统计估计器的最小 max 风险下限，同时提出了一种基于最小二乘估计和蒙特卡罗返回估计的学习算法，并证明它们可以实现最优风险，从而使得分布式离线 RL 算法达到最小 max 下限，此外，还证明了时间差异无法在单轮通讯环境中有效地利用所有可用设备的信息。

Feb, 2022

基于深度强化学习的多智能体通信与协作决策研究

本篇论文基于 CTDE 框架，研究基于 MAPPO 算法的多智能体合作决策，并引入了基于权重调度和注意力机制的多智能体通信机制以缓解多智能体环境中的非稳定性。提出了 MCGOPPO 算法，并在 SMAC 和 MPE 上进行了实验，结果表明此算法可以改善多智能体环境中的非稳定性，提高多智能体间的协同决策能力。

May, 2023

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

多智能体强化学习：异步通信和线性函数逼近

该论文研究了多智能体强化学习在时序马尔科夫决策过程的情景下的应用，提出了一种基于价值迭代的算法，实现异步通信并保证协作的优势，证明了，当使用线性函数逼近时，该算法的遗憾值可达到 $\tilde {\mathcal {O}}(d^{3/2} H^2\sqrt {K})$，且通信复杂度为 $\tilde {\mathcal {O}}(dHM^2)$。

May, 2023

低秩 POMDP 中可证明高效且具可行性的表示学习

本文研究部分可观测马尔可夫决策过程的表示学习，其中智能体学习将高维原始观察映射到紧凑表示并用于更高效的探索和规划，并提出一种基于最大似然估计和不确定性乐观算法的表示学习算法，从而在计算复杂度上获得高效的采样复杂度。

Jun, 2023

去中心化和随机优化的通讯高效算法

本文提出了一种新的去中心化一阶方法解决在多代理网络上的非光滑和随机优化问题，其中主要贡献为提出了基于去中心化通讯滑动算法的去中心化原始 - 对偶算法，以解决在去中心化优化中通讯瓶颈。

Jan, 2017

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023