使用分解增强的 MDP 多智能体学习双曲偏微分方程数值方法

May, 2022

使用分解增强的 MDP 多智能体学习双曲偏微分方程数值方法

Multi-Agent Learning of Numerical Methods for Hyperbolic PDEs with Factored Dec-MDP

Yiwei Fu, Dheeraj S.K. Kapilavai, Elliot Way

TL;DR本文将学习数值方法转化为了分解的 Dec-MDP 问题，展示了不同的奖励公式导致强化学习或行为克隆。RL 算法实现了一个同质化策略，使得多个智能体之间可以相互合作完成任务，并推广到不同的 PDEs 数值求解问题。

Abstract

Factored decentralized Markov decision process (dec-mdp) is a framework for modeling sequential decision making problems in multi-agent systems. In this paper, we formalize the learning of numerical methods for h

dec-mdp numerical methods hyperbolic partial differential equations reinforcement learning policy gradient algorithm

发现论文，激发创造

Dec-POMDP 中的平衡 Monte-Carlo 搜索

本文介绍了一种基于模拟的 POMDP 求解器来构建 Dec-POMDP 的有限状态控制器节点以及一种相关的方法来启发式地导出初始 FSC，称为 MC-JESP，实验证明其竞争力甚至优于使用显式模型的许多离线方法

May, 2023

基于因子的 MDP 高效解算算法

本文提出了两种近似解决因子化马尔可夫决策过程的算法，利用基函数表示近似值函数，其中每个基函数仅涉及一个小的子集，使用类似于变量消除的线性规划分解技术将指数级的 LP 规模缩小到多项式级别。我们的动态规划算法使用 max-norm 近似技术，对于超过 10^40 个状态的问题，我们的算法展示了有希望的可扩展性，并将其与现有的最新技术方法进行了比较，在某些问题上计算时间得到了指数级的提升。

Jun, 2011

本地相互依赖的多智能体 MDP：分散智能体与动态依赖的理论框架

我们提出并从理论上分析了一种名称为局部相互依赖的多智能体马尔可夫决策过程的分散模型，该模型可以代表协作导航、避障和形成控制等许多不同领域的问题。尽管普遍的部分可观测多智能体系统很难处理，但我们提出了三种闭合形式的策略，在这种情况下理论上是近似最优的，并且可以扩展到可计算和存储。因此，我们揭示了局部相互依赖的多智能体马尔可夫决策过程的一个基本特性，即部分可观测的分散解决方案与可见半径相对于完全可观测解决方案指数级接近。然后，我们讨论了将我们的闭合形式策略扩展以进一步改善可处理性的方法。最后，我们提供了模拟实验来研究我们的闭合形式策略在长期情景下的一些行为。

Jun, 2024

合作多智能体马尔可夫决策过程中的近似线性规划和分散策略改进

我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法，其中使用近似线性规划计算近似值函数并实施分散策略改进。

Nov, 2023

基于深度学习的高维抛物型偏微分方程和反向随机微分方程数值解法

该论文提出了一种基于强化学习和神经网络的算法用于解决高维情况下的偏微分方程和反向随机微分方程等数学问题，并在物理和金融学领域的各种非线性情况下进行了测试和优化。

Jun, 2017

分解型 MDPs 的策略迭代

该论文提出了一种新的价值确定方法，借助简单的闭合计算来直接计算价值函数的分解逼近，以及一个基于此方法的策略迭代过程。

Jan, 2013

分散式控制马尔可夫决策过程的复杂性

探讨了具有部分状态信息的分布式智能体的规划问题，介绍了对 MDP 和 POMDP 模型的推广，研究表明分散控制与集中控制在马尔可夫过程中的根本差异，相关问题不适合使用多项式时间算法来求解，需要使用双指数时间算法求解。

Jan, 2013

使用混合状态和动作变量解决分解的马尔可夫决策过程

本文介绍了一种可对连续和离散变量的大决策问题进行紧凑表示的混合分解 Markov 决策过程（MDP）模型和一种新的混合近似线性规划（HALP）框架，HALP 的核心思想是通过一组基函数的线性组合来近似最优价值函数，并通过线性规划来优化其权重，并证明其在多种混合优化问题中的可扩展潜力。

Sep, 2011

连续博弈的 Helmholtz 分解上的牛顿优化

本文提出了基于 NOHD （Newton Optimization on Helmholtz Decomposition）算法的多智能体学习方法，其基于对系统动力学进行无旋（势能）和无源（哈密顿量）分解，保证了纯无旋和无源系统的二次收敛，且在一般的多智能体系统中收敛于稳定的固定点。本文在一些双矩阵游戏和连续 Gridworld 环境中与现有算法的表现进行了比较。

Jul, 2020

Meta-PDE: 学习在没有网格的情况下快速解决 PDE 问题

采用元学习方法将神经网络拟合偏微分方程组的解，并最终在不同的参数、几何域和边界条件下对非线性 Poisson 方程、1D Burgers 方程和超弹性方程组等问题，以较快的速度达到近似精度，且无需传统的有限元分析求解器。

Nov, 2022