连续博弈的 Helmholtz 分解上的牛顿优化

AAAIJul, 2020

连续博弈的 Helmholtz 分解上的牛顿优化

Newton Optimization on Helmholtz Decomposition for Continuous Games

Giorgia Ramponi, Marcello Restelli

TL;DR本文提出了基于 NOHD （Newton Optimization on Helmholtz Decomposition）算法的多智能体学习方法，其基于对系统动力学进行无旋（势能）和无源（哈密顿量）分解，保证了纯无旋和无源系统的二次收敛，且在一般的多智能体系统中收敛于稳定的固定点。本文在一些双矩阵游戏和连续 Gridworld 环境中与现有算法的表现进行了比较。

Abstract

Many learning problems involve multiple agents optimizing different interactive functions. In these problems, the standard policy gradient algorithms fail due to the non-stationarity of the setting and the different interests of each agent. In fact, algorithms must take into account the complex dynamics of these systems to guarantee rapid convergence towards

multi-agent learning policy gradient algorithms nash equilibrium nohd newton optimization

发现论文，激发创造

n 个玩家可微分游戏的力学

本文介绍了用于解决许多深度学习模型中的问题的 Symplectic Gradient Adjustment (SGA) 算法，并提出了 Hamiltonian game 概念，使得 SGA 算法具有一定的保证，并在 GANs 等更广泛的游戏中表现出着和其他算法竞争力相当的性能。

Feb, 2018

偏线性分解：多智能体系统的并行优化

本文通过提出一种新的分解框架，开发了一类 Jacobi 最佳响应算法，提取出一种动态定价机制，并构建了一个易于特定应用的框架，以优于现有方法的效率解决分布式优化领域的一般非凸总效用函数问题。

Feb, 2013

乐观无悔动力加速

本论文研究了如何利用在线学习动态算法来求解具有 Nash 均衡约束的凸凹博弈问题，通过引入乐观学习机制使得该方法求解速度得到了显著提升，同时还证明了在强凸平滑函数的情况下该方法的加速收敛性。

Jul, 2018

可微分的游戏机制

本文针对深度学习建立在梯度下降收敛局部极小值的基础上这一保证在生成对抗网络等存在多个交互损失的情况下失效问题，研究了 N 人不可微分博弈的动态性，提出了一种新的算法 Symplectic Gradient Adjustment (SGA) 可以在更一般的情境下应用，并有基于理论保证的鲁棒性。

May, 2019

基于 ODE 的学习优化

通过将惯性系统与 Hessian 驱动的阻尼方程（ISHD）与基于学习的方法相结合，本文提出了一个综合框架，以理论洞察力的深度协同为基础，通过发展优化方法来研究加速方法的理解。

Jun, 2024

有限游戏的几何分解：无遗憾学习下的收敛与循环

基于 Riemannian 框架和 Shahshahani 度量，在无悔学习中研究了复杂动力学的分解，发现无悔动力学在体积保持和收敛性方面具有特殊特征，并与潜势和谐波分解存在深层关联。

May, 2024

使用分解增强的 MDP 多智能体学习双曲偏微分方程数值方法

本文将学习数值方法转化为了分解的 Dec-MDP 问题，展示了不同的奖励公式导致强化学习或行为克隆。RL 算法实现了一个同质化策略，使得多个智能体之间可以相互合作完成任务，并推广到不同的 PDEs 数值求解问题。

May, 2022

基于 Hamilton-Jacobi 的深度算子学习的策略迭代

本论文将深度算子网络（DeepONet）框架与最近发展的策略迭代方案相结合，以数值方式解决最优控制问题和相应的 Hamilton-Jacobi-Bellman（HJB）方程，在不同终端函数情况下通过算子学习的独特特性快速推断出解；通过粘性解的比较原理定量分析了算法的准确性，并通过包括 10 维线性二次调节器问题（LQRs）在内的各种示例验证了该方法的有效性。

Jun, 2024

加速分布式聚合优化

本文研究了在网络中分布式汇聚优化问题，提出了结合重球和 Nesterov 加速方法的分布式汇聚梯度跟踪的两个新算法 DAGT-HB 和 DAGT-NES，分析这两个算法在目标函数光滑，强凸且参数选择在一定范围内时，能以全局 R 线性收敛速度收敛到最优解，通过最优放置问题的数值实验验证了算法的有效性和优越性。

Apr, 2023

连续游戏中基于梯度的学习

本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型，并使用动态系统理论对其进行了分析，对于有限和无限游戏，我们表征了一组非常小的局部纳什均衡，这组均衡将被激活，如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性，这可能解释了在零和游戏中，应用相关算法时出现的困难。最后，为了验证理论贡献，我们给出了一个示例验证。

Apr, 2018