学习因子策略和动作值函数：因子化动作空间表示在深度强化学习中的应用

May, 2017

学习因子策略和动作值函数：因子化动作空间表示在深度强化学习中的应用

Learning to Factor Policies and Action-Value Functions: Factored Action Space Representations for Deep Reinforcement learning

PDF

Sahil Sharma, Aravind Suresh, Rahul Ramesh, Balaraman Ravindran

TL;DR该论文提出了一种新的学习范式，即分解学习控制策略使其在实现多个动作时只需要执行一个动作，从而取得了显著的性能提升，特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。

Abstract

deep reinforcement learning (DRL) methods have performed well in an increasing numbering of high-dimensional visual decision making domains. Among all such →

deep reinforcement learning visual decision making factored action space representations compositional structure atari 2600

发现论文，激发创造

利用分解的行动空间实现医疗保健中高效的离线强化学习

本文研究了如何在强化学习的组合行为空间中通过线性 Q 函数分解来更好地处理少见子行动组合的情况，并对该方法进行了理论分析和实验评估，证明了它可以提高数据效率和策略优化的性能。

May, 2023

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

多智能体强化学习分解分布式值函数的统一框架

提出了一个名为 DFAC 的统一框架，用于将分布式 RL 与值函数分解方法相结合，以对多智能体 RL 问题进行建模和解决。DFAC 能够因子化回报分布，使得它能够在多个基准测试中具有更好的表现。

Jun, 2023

在动作顶点上学习表示动作价值的超图

通过结合 hypergraph networks framework 和 deep Q-networks 方法，有效提升异构空间下 action-value 估计的表现，包括 Atari 2600 游戏和物理控制基准测试等多个领域。

Oct, 2020

扩大行动空间

使用课程学习和跨行动空间的迁移学习来加速强化学习，通过限制其初始行动空间，同时为多个行动空间估算最优值函数，并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上，成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。

Jun, 2019

MAN: 多动作网络学习

我们提出了一种新的 DRL 算法 Multi-Action Networks Learning 来解决高维度大离散行动空间的问题，并实验验证得出，MAN 比当前用于大离散行动空间的异步时间差分算法更快地学习策略。

Sep, 2022

学习重复：深度强化学习中的细粒度动作重复

本文提出了一种新的框架 Fine Grained Action Repetition (FiGAR)，该框架使代理能够在与环境交互的每个时间步长上决定动作以及重复该动作的时间尺度，可用于改进任何维护显式策略估计的深度强化学习算法。我们通过在不同领域的三个策略搜索算法上展示其性能改进，从而在 Atari 2600 领域中异步优势演员评论家，Mujoco 领域中的信任区域策略优化以及 TORCS 汽车比赛领域中的深度确定性策略梯度上展现了我们框架的效力。

Feb, 2017

基于函数值动作空间的强化学习用于偏微分方程控制

本文提出了一种在深度确定性策略梯度算法中使用动作描述符的方法，可以更有效地控制高维连续动作偏微分方程。实验证明该方法比传统方法更高效。

Jun, 2018

DFAC 框架：通过分位点混合因式分解价值函数的多智能体分布式 Q 学习

本研究提出分布式价值函数分解（DFAC）框架，将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题，实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。

Feb, 2021