调查策略梯度算法中行动表示的影响

Sep, 2023

调查策略梯度算法中行动表示的影响

Investigating the Impact of Action Representations in Policy Gradient Algorithms

Jan Schneider, Pierre Schumacher, Daniel Häufle, Bernhard Schölkopf, Dieter Büchler

TL;DR强化学习是一种用于解决复杂实际问题的多功能学习框架，本研究讨论了不同的分析技术，并评估它们对于研究强化学习中行为表示对学习性能的影响的有效性。实验证明行为表示对流行强化学习基准任务的学习性能有显著影响，分析结果指出性能差异的一部分可以归因于优化整体的复杂度变化。最后，我们讨论了强化学习算法分析技术的挑战。

Abstract

reinforcement learning~(RL) is a versatile framework for learning to solve complex real-world tasks. However, influences on the learning performance of RL algorithms are often poorly understood in practice. We di

reinforcement learning action representations learning performance optimization landscape analysis techniques

发现论文，激发创造

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

评估分布偏移对强化学习性能的影响

针对分布转换情况下的强化学习进行严格评估的方法研究。

Feb, 2024

基于表示的强化学习

提出了一个基于表示的强化学习框架，使用来自上下文强化学习的技术来指导探索和利用。通过在线性特征空间中嵌入策略网络，将勘探利用问题转化为表示利用问题，这样好的策略表示能够实现最佳勘探。通过应用于进化和策略梯度方法，本框架比传统方法具有显著提高的性能。该框架提供了关于强化学习的新视角，突出了策略表示在确定最佳勘探利用策略方面的重要性。

May, 2023

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

多智能体强化学习中动作 - 价值网络的表征能力

本文探讨了深度强化学习技术在合作多智能体系统中的应用，实验结果表明不同网络架构的表现存在差异，提出了增强其表示能力来解决失败问题的建议。

Feb, 2019

表示抽象作为强化学习智能体的激励机制：一个机器人抓取的案例研究

选择适当的环境表示对于强化学习代理的决策过程并不总是直观的，本研究考察了不同状态表示对于激励代理解决机器人任务的影响，结果显示使用数字状态的强化学习代理与非学习基线表现相当，而使用经过预训练环境嵌入向量的图像表示的代理表现更好，推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。

Sep, 2023

评估强化学习算法的性能

本文提出了一种全新的强化学习算法综合评估方法，旨在解决现有评估指标不当的问题并确保性能结果的一致性和可重复性，且通过在标准基准任务上运用这种方法评估了广泛的强化学习算法。

Jun, 2020

在动作顶点上学习表示动作价值的超图

通过结合 hypergraph networks framework 和 deep Q-networks 方法，有效提升异构空间下 action-value 估计的表现，包括 Atari 2600 游戏和物理控制基准测试等多个领域。

Oct, 2020

多智能体系统中的策略表示学习

我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架，将代理建模作为表示学习问题，并使用模仿学习和代理识别的算法进行无监督学习，以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中，我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。

Jun, 2018