安全覆盖控制的近似最优多智能体学习

Oct, 2022

安全覆盖控制的近似最优多智能体学习

Near-Optimal Multi-Agent Learning for Safe Coverage Control

Manish Prajapat, Matteo Turchetta, Melanie N. Zeilinger, Andreas Krause

TL;DR本论文提出了一种条件线性子模覆盖函数，用于多智能体覆盖控制问题中的密度学习和保证智能体的安全性，并开发了 MacOpt 和 SafeMac 算法来解决部分可观察性导致的勘探 - 开发困境，以及多智能体带安全探索的覆盖问题，实证研究表明 SafeMac 在安全约束下的任务性能优于竞争方法。

Abstract

In multi-agent coverage control problems, agents navigate their environment to reach locations that maximize the coverage of some density. In practice, the density is rarely known $\textit{a priori}$, further complicating the original NP-hard problem. Moreover, in many applications, ag

multi-agent coverage control density learning safety constraints conditional linear submodular coverage function exploration-exploitation tradeoff

发现论文，激发创造

PAC 强化学习的主动覆盖

本研究提出了一个灵活的框架来解决强化学习过程中数据覆盖率问题，并通过 CovGame 算法来匹配最低采样复杂度，进而解决了不同的演示性增强学习任务问题。

Jun, 2023

可扩展的在线探索

探索是强化学习中的一个主要挑战，该研究提出了探索目标 —— 一种能够使任何奖励函数最大化的政策优化目标，作为一个概念框架来系统研究探索。在这个框架中，引入了一个新的目标 $L_1$-Coverage，它推广了以前的探索方案并支持三个基本的愿望：内在复杂性控制、高效规划和高效探索。经验证实，$L_1$-Coverage 能够有效地驱动政策优化算法对状态空间进行探索。

Mar, 2024

学习多智能体协作，提高定向传感器网络的目标覆盖率

提出了一种分层目标导向的多智能体协调方法（HiT-MAC），通过协调传感器以获得低功耗、不丢失目标或减少重叠覆盖的目标覆盖，同时引入了一些实用方法，包括自我关注模块、对协调器的边际贡献近似以及对执行者的目标条件观察滤波器。实验结果表明，相比基线方法，HiT-MAC 在覆盖率、学习效率和可扩展性方面有优势，并对框架中引入的组件的有效性进行了削弱分析。

Oct, 2020

具有通用效用的安全多智能体强化学习可扩展原始 - 对偶演员 - 评论家方法

本文研究安全的多智能体强化学习方法，通过提出基于原始 - 对偶方法、阴影奖励和 k-hop 邻居截断等策略，解决了多智能体行动 - 状态空间呈指数级增长以及安全约束等问题，并通过数值实验验证了算法的有效性。

May, 2023

多智体深度探索覆盖选项

通过 HA-MSAC 和协同机制来构造多智能体协作选项并提高协作效率和任务奖励。

Oct, 2022

面向安全多智体强化学习的可证明高效广义拉格朗日策略优化

本文提出一种使用基于占用测度的拉格朗日优化方法来解决约束马尔可夫博弈的在线安全强化学习算法，经更新的 minimax 决策原始变量和双重变量，达到亚线性后悔率和约束违规率，实现对马尔可夫博弈的高效学习。

May, 2023

使用线性函数逼近的多智能体拥塞成本最小化

该论文提出了一种多智能体强化学习算法以实现分散式的最小化拥塞成本，该算法使用线性函数逼近过渡概率和全局成本函数，通过一个多智能体扩展价值迭代子例程维护全局状态动作值的估计，并通过动态通信网络共享成本函数参数以保护隐私。

Jan, 2023

控制联邦学习的隐蔽性

通过利用随机性，本文研究了在学习者通过查询具有噪声的梯度评估的分布式 Oracle 的同时，向恶意窃听者隐藏 min (f) 的问题，将控制随机梯度算法用于隐蔽优化建模为马尔可夫决策过程，并证明动态规划算子具有超模结构，推导出最优策略具有单调阈值结构。提出了一种计算效率较高的策略梯度算法，用于在不知道转移概率的情况下搜索最优查询策略。在一个联邦设置中，将我们的方法应用于恶意窃听者可以使用最优权重生成更易误分类的有毒内容的恶意言论分类任务。数值结果表明，当学习者使用最优策略时，窃听者在没有信息时只能达到 52％的验证精度，当窃听者拥有 10％的正样本的公共数据集时，可以达到 69％的验证精度，而学习者使用贪婪策略时为 83％。

Aug, 2023

安全的基于模型的多智能体均场强化学习

本研究提出了 Safe-M3-UCRL 算法，使用平均场强化学习来为大量智能体寻找优化方法，并且可以在面临未知转换动态时实现建模优化问题，保证悲观约束条件的满足。在这个基础上，我们以共享代步交通问题为例进行了模拟评估，结果表明，该算法在保证服务可用性的同时，能够有效地维持区域内的供需平衡。

Jun, 2023

安全强化学习的收敛策略优化

本研究探讨了安全强化学习问题与非线性函数逼近的关系，将策略优化作为同时考虑目标与限制的非凸问题，通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题，证明了对这些问题求解，其解会收敛于原问题的稳定点；进一步将该算法应用于优化控制和多智能体安全强化学习问题，扩展了理论研究的范围。

Oct, 2019