在动作顶点上学习表示动作价值的超图

ICLROct, 2020

在动作顶点上学习表示动作价值的超图

Learning to Represent Action Values as a Hypergraph on the Action Vertices

Arash Tavakoli, Mehdi Fatemi, Petar Kormushev

TL;DR通过结合 hypergraph networks framework 和 deep Q-networks 方法，有效提升异构空间下 action-value 估计的表现，包括 Atari 2600 游戏和物理控制基准测试等多个领域。

Abstract

action-value estimation is a critical component of many reinforcement learning (RL) methods whereby sample complexity relies heavily on how fast a good estimator for action value can be learned. By viewing this problem through the lens of →

reinforcement learning representation learning action-value estimation deep q-networks hypergraph networks

发现论文，激发创造

多智能体强化学习中动作 - 价值网络的表征能力

本文探讨了深度强化学习技术在合作多智能体系统中的应用，实验结果表明不同网络架构的表现存在差异，提出了增强其表示能力来解决失败问题的建议。

Feb, 2019

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

学习因子策略和动作值函数：因子化动作空间表示在深度强化学习中的应用

该论文提出了一种新的学习范式，即分解学习控制策略使其在实现多个动作时只需要执行一个动作，从而取得了显著的性能提升，特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。

May, 2017

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

用超网络重新组合强化学习构建块

本文提出使用超网络结构来改善强化学习和 Meta-RL 算法中梯度估计和学习步骤方差的问题，以提高学习效率和最终性能。实验表明，该方法可在不同的任务和算法中得到一致的改进。

Jun, 2021

动作的自然语言

Act2Vec 是一种通用的框架，用于学习基于上下文的强化学习中的行动表示，在此基础上，该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试，并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量表示中，最终优化了 Q 值函数的近似。

Feb, 2019

二进制向量动作的 Q 网络

本文研究了具有二元向量动作的强化学习问题，提出了一种用于逼近二元向量动作价值函数的神经网络有效架构，该架构可以使得基于贪心或 softmax 策略的动作选择可以进行高效计算，并基于 Q-learning 提出了一种在线算法，论文还给出了基于方格世界和块障碍任务的实证结果，表明提出的逼近架构可以在具有大量离散动作集的 RL 问题中取得良好的效果。

Dec, 2015

双曲深度强化学习

本文提出了一种新的深度强化学习算法类，其中建模超螺旋空间中的潜在表示。通过使用超螺旋几何提供深度强化学习模型以精确编码本质上分层的信息，借此进行任务相关的关键演化特征的关系捕捉。然而，现有方法中的优化稳定性问题导致 RL 梯度估计器的非稳态和方差性，本文通过设计了一种新的通用方法来解决这些问题并实现深度超螺旋表示的稳定端到端学习，并在 Procgen 和 Atari 100K benchmarks 上验证了该框架的有效性。

Oct, 2022

多智能体强化学习中的图卷积值分解

该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架，包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX，能够优于当前最先进方法，可用于 StarCraft II 多智能体挑战基准测试中，同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。

Oct, 2020

扩大行动空间

使用课程学习和跨行动空间的迁移学习来加速强化学习，通过限制其初始行动空间，同时为多个行动空间估算最优值函数，并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上，成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。

Jun, 2019