用非对称规范来近似最小行动距离

Dec, 2023

用非对称规范来近似最小行动距离

Asymmetric Norms to Approximate the Minimum Action Distance

Lorenzo Steccanella, Anders Jonsson

TL;DR本研究提出了一种奖励无关的马尔可夫决策过程的状态表示方法，通过自我监督学习嵌入空间，使得嵌入状态对之间的距离对应于在它们之间转换所需的最小动作数。与之前的方法不同，我们的方法采用了非对称范数参数化，可以在具有固有不对称性的环境中准确近似最小动作距离。我们展示了如何利用这种表示方法来学习目标条件策略，提供了状态和目标之间的相似度概念和有用的启发式距离来指导规划。为了验证我们的方法，我们在对称和不对称环境下进行了实证实验。结果表明，我们的非对称范数参数化在对称环境中与对称范数表现相当，在不对称环境中超过对称范数。

Abstract

This paper presents a state representation for reward-free Markov decision processes. The idea is to learn, in a self-supervised manner, an embedding space where distances between pairs of embedded states correspond to the minimum number of actions needed to transition between them. Un

state representation reward-free markov decision processes embedding space asymmetric norm parametrization goal-conditioned policies

发现论文，激发创造

具有非对称距离度量的概率世界建模

学习一个距离函数对计划和推理在表示空间中至关重要，通过非对称对比学习将概率世界动态嵌入到表示空间中，并通过一个共同参考状态，发现几何上显著的状态作为子目标，有效地发现子目标。

Mar, 2024

MICo: 基于采样状态相似性的改进型马尔可夫决策过程表示

本文提出了一种新的行为距离方法，用于深度强化学习智能体的学习表示，并通过理论和实证研究表明，该方法可以有效地解决现有状态相似性学习通常存在的计算成本高和缺乏基于样本的算法的问题，同时在 Arcade Learning Environment 基准测试中取得了良好的结果。

Jun, 2021

强化学习中的对抗内在动机

论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用，提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。

May, 2021

自监督学习距离函数用于目标条件强化学习

本文在使用子目标分解强化学习问题时，提出学习适当距离的方法以确定目标是否已实现，并就三种不同情境提出了解决方案，同时还提出了一个目标生成机制。

Jul, 2019

带 Borel 空间的马尔科夫决策过程的有限逼近的渐近最优性

本文针对局限于有限状态下的马尔可夫决策过程，对于包括折扣和平均成本标准在内的情况进行了研究，获得了近似最优策略，使用预处理步骤将操作空间有限近似，可以使用众所周知的算法计算近似最优政策。

Mar, 2015

最大化 Wasserstein 距离的内在控制

本文提出了一种通过最大化状态访问的 Wasserstein 距离学习最大化技能的代理奖励的方法，这种方法比基于多样性的目标导向策略在 MDP 中的覆盖范围更广，并在各种 Atari 环境中验证了结果。

Oct, 2021

半监督和无监督技能探索的动态距离学习

本篇论文研究了如何通过自主互动学习动态距离，并使用它们来提供良好的奖励函数，以便无需人为设计奖励函数或目标示例，使用半监督学习方法在实际机器人和仿真环境中有效地执行复杂任务。

Jul, 2019

风险厌恶强化学习的分布式方法

我们提出了一种分布式方法，用于在风险规避马尔可夫决策过程中学习最优策略，该方法使用嵌套 Kusuoka 类型条件风险映射构造的动态风险度量来评估策略表现，利用了对应动态规划原理中嵌入的某些结构，使用深度神经网络逼近值函数的条件分布，避免了探索阶段的维度灾难，并使用随机选择的一系列模型参数探索了该方法的性能。

Feb, 2023

保持距离：通过自平衡的成形奖励解决稀疏奖励任务

该研究介绍了一种基于辅助距离奖励的、简单且有效的无模型方法，使得机器学习智能体可以有效地解决用简单距离奖励难以解决的稀疏奖励任务，同时不需要额外的奖励工程或领域专业知识。

Nov, 2019

POMDP 中的强健非对称学习

通过使用奖励最大化目标，我们提出了一种高效算法 A2D，共同训练专家和智能体，以帮助智能体模仿一个安全的专家策略，从而优于模仿固定专家所学习的策略。

Dec, 2020