该研究提出了一种基于学习控制障碍函数作为安全证书实现的多智能体安全控制方法,该方法可以在分散式网络中进行联合学习,并且可以适应任意数量的智能体。在实验中,该方法显著优于其他主要的多智能体控制方法,并具有出色的泛化能力。
Jan, 2021
通过在策略空间中进行博弈论分析,MATRL 提出了一种用于多智能体学习的多智能体信赖域学习方法,该方法可在解决纳什均衡的元游戏级别上找到稳定的改进方向,并在离散和连续的多人游戏中明显优于基线。
Jun, 2021
本文提出了一种基于信任区域方法的安全分布式强化学习方法,包括针对分布式评论家的估计偏差的降低,用 Q 函数表示的信任区域方法的新代理以及从不安全的初始代理找到满足所有约束的代理的梯度集成方法,实验表明,该方法表现出最小的约束违规,同时实现了高收益。
Jan, 2023
通过整合多智能体增强学习和控制理论方法,本文提出了一种混合方法来解决安全关键环境中的复杂合作任务,包括一个新颖的设定更新算法以动态调整智能体位置以保持安全条件而不影响任务目标。实验证明相比传统的多智能体增强学习策略,该方法在任务性能和安全违规方面取得了显著优势。研究结果表明,将安全控制与学习方法相结合不仅增强了安全合规性,还实现了良好的任务目标性能。
Apr, 2024
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
本文提出一种方法,通过联合学习障碍函数和类李亚普诺夫函数的神经网络来实现动态系统的安全和目标控制,该方法在摆、小车倒立杆和无人机等动态系统中得到了有效应用。
Jun, 2020
提出了一种结合逻辑约束强化学习算法和进化算法的框架,用于在不确定或未明确定义安全约束的环境中并发地学习安全约束和最优 RL 策略,并且该框架以理论保证为支撑,成功地在 grid-world 环境中识别出可接受的安全约束和 RL 策略,以及证明了我们的方法的实践效果。
Apr, 2023
我们提出了一种计算多智能体系统中闭环最优策略的方法,并证明了在拥有无限个智能体的系统中成功收敛到最优行为,而且我们的方法具有完全分散的特性,能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。
Mar, 2018
本文提出了一种基于神经网络构建 Lyapunov 函数并通过训练算法将其适应到状态空间中最大安全区域形状的方法,以学习非线性闭环动力系统的准确安全证明,并在模拟倒立摆中演示了该方法的应用,讨论了如何将该方法与动态系统的统计模型一起用于安全学习算法。
Aug, 2018
该研究提出了一种名为 SNO-MDP 的算法,它可以在未知安全约束条件下探索和优化马尔可夫决策过程,通过扩展安全区域来学习安全约束条件,进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。
Aug, 2020