组合动作空间中的高效规划及其在合作多智能体强化学习中的应用

Feb, 2023

组合动作空间中的高效规划及其在合作多智能体强化学习中的应用

Efficient Planning in Combinatorial Action Spaces with Applications to Cooperative Multi-Agent Reinforcement Learning

Volodymyr Tkachuk, Seyed Alireza Bakhtiari, Johannes Kirschner, Matej Jusup, Ilija Bogunovic...

TL;DR本篇研究论文是关于如何在具有组合行动空间的多智能体强化学习中，通过访问 argmax oracle 并建立在线模拟和线性函数逼近的最小要求，提出了一种高效的算法，以在所有相关问题参数的多项式计算和查询复杂度内实现计划。

Abstract

A practical challenge in reinforcement learning are combinatorial action spaces that make planning computationally demanding. For example, in cooperative multi-agent reinforcement learning, a potentially large nu

reinforcement learning combinatorial action spaces multi-agent reinforcement learning argmax oracle linear function approximation

发现论文，激发创造

利用分解的行动空间实现医疗保健中高效的离线强化学习

本文研究了如何在强化学习的组合行为空间中通过线性 Q 函数分解来更好地处理少见子行动组合的情况，并对该方法进行了理论分析和实验评估，证明了它可以提高数据效率和策略优化的性能。

May, 2023

扩大行动空间

使用课程学习和跨行动空间的迁移学习来加速强化学习，通过限制其初始行动空间，同时为多个行动空间估算最优值函数，并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上，成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。

Jun, 2019

强化学习的组合探索优化

在解决复杂优化问题方面，探索式组合优化（ECO-DQN）通过连续改进解决方案，从而有效地学习有效的启发式方法来解决图上的组合优化问题，并在最大割问题上展示了最先进的强化学习性能。

Sep, 2019

通过动作空间分组实现样本和计算高效的强化学习

本文提出了一种解决高维情况下强化学习中的状态和行动指数级增长问题的方法：通过学习具有动作上相似的马尔可夫决策过程的内在结构，以适当平衡性能退化与样本 / 计算复杂度之间的关系，并提出了一种基于线性分解模型的分组策略以最小化总体性能损失。

Jun, 2023

可逆行动设计与强化学习在组合优化中的应用

利用图神经网络和深度 Q 学习的强化学习方法，针对组合优化问题提出了一种无需问题特定设计即可实现状态最优化策略搜索的通用模型，并在最大 k-Cut 问题和旅行商问题上实验验证了其优越性。

Feb, 2021

大规模多智能体系统的分解 Q 学习

本文针对多智能体场景下动态和智能体之间的复杂性引起的动作空间爆炸问题，提出将 Q 函数近似为分解成对交互的高阶高维张量，并利用复合深度神经网络实现计算，借此简化模型，加快学习过程，通过在多个场景上的实验得出，该方法表现良好。

Sep, 2018

利用潜在空间搜索的组合优化与策略适应

使用强化学习构建基于启发式方法的优化算法，通过预训练具有多样性的策略分布来优化搜索过程，在三个经典问题上实现了更好的性能和泛化能力。

Nov, 2023

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

大规模环境下全局决策中高效强化学习的应用

研究探讨了在存在许多本地代理的全局决策制定中的强化学习问题，旨在通过学习一种最大化全局和本地代理奖励的策略来解决可扩展性挑战。提出了 SUB-SAMPLE-Q 算法，该算法通过对局部代理进行子采样来计算最优策略，其时间复杂度仅在 k 方面呈指数增长，相较于标准方法能够提供指数级的加速。研究结果表明，学习到的策略在子采样代理数量 k 增加时会趋近于最优策略，并且收敛的顺序为 O (1/√k + εk,m)，其中 εk,m 为贝尔曼噪声。同时进行了需求响应和排队模拟实验。

Mar, 2024

复杂动作空间中的学习与规划

本文提出了一个基于策略迭代的通用框架，可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中，样本化 MuZero 是 MuZero 算法的一个扩展，可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用围棋和 DeepMind 的控制套件以及真实世界的强化学习测试开展了实证研究。

Apr, 2021