强化学习的动作表示学习

ICMLFeb, 2019

Learning Action Representations for Reinforcement Learning

Yash Chandak, Georgios Theocharous, James Kostas, Scott Jordan, Philip S. Thomas

TL;DR研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Abstract

Most model-free reinforcement learning methods leverage state representations (embeddings) for generalization, but either ignore structure in the space of actions or assume the structure is provided a priori. We

model-free reinforcement learning state representation action representation generalization algorithm

发现论文，激发创造

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

多智能体系统中的策略表示学习

我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架，将代理建模作为表示学习问题，并使用模仿学习和代理识别的算法进行无监督学习，以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中，我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。

Jun, 2018

动作的自然语言

Act2Vec 是一种通用的框架，用于学习基于上下文的强化学习中的行动表示，在此基础上，该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试，并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量表示中，最终优化了 Q 值函数的近似。

Feb, 2019

Deep Reinforcement Learning 中的状态行为表示学习

本文介绍了一种名为 SALE 的新方法，用于学习嵌入，以从低级状态中进行有效的表示学习，并将其与一种自适应检查点方法相结合，形成 TD7 算法，用于连续控制问题，并在 OpenAI gym 基准任务上表现出了显着提高。

Jun, 2023

多任务策略训练中的简单自发行为表示

该论文研究了深度强化学习中低级感知和运动信号的表示方法，提出通过多任务策略网络输入状态和任务嵌入的方法得到有意义的运动表示空间，并在此基础上进行高级别指令的执行规划，实验结果表明该方法优于现有强基线方法，具有较强的任务适应能力。

Oct, 2022

抽象表征下的联合强化学习

本文提出一种新的方法，通过共享基于低维学习的环境编码来明确地连接无模型和有模型的强化学习方法，该方法能够捕捉到总结性抽象，同时具有模块化的特点，因此具有良好的泛化能力和计算效率，并在较小的潜在状态空间中进行计划。此外，此方法还能恢复足够低维的环境表示，从而为可解释的人工智能、探索和迁移学习开辟了新的策略。

Sep, 2018

调查策略梯度算法中行动表示的影响

强化学习是一种用于解决复杂实际问题的多功能学习框架，本研究讨论了不同的分析技术，并评估它们对于研究强化学习中行为表示对学习性能的影响的有效性。实验证明行为表示对流行强化学习基准任务的学习性能有显著影响，分析结果指出性能差异的一部分可以归因于优化整体的复杂度变化。最后，我们讨论了强化学习算法分析技术的挑战。

Sep, 2023

在动作顶点上学习表示动作价值的超图

通过结合 hypergraph networks framework 和 deep Q-networks 方法，有效提升异构空间下 action-value 估计的表现，包括 Atari 2600 游戏和物理控制基准测试等多个领域。

Oct, 2020

学习因子策略和动作值函数：因子化动作空间表示在深度强化学习中的应用

该论文提出了一种新的学习范式，即分解学习控制策略使其在实现多个动作时只需要执行一个动作，从而取得了显著的性能提升，特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。

May, 2017