利用地标映射状态空间实现通用目标达成

Aug, 2019

利用地标映射状态空间实现通用目标达成

Mapping State Space using Landmarks for Universal Goal Reaching

Zhiao Huang, Fangchen Liu, Hao Su

TL;DR本文提出了一种在具有稀疏奖励下的大型 MDPs 中处理 long-range goals 的方法，该方法通过分层建模、farthest point sampling 和 RL 算法的结合来解决这个问题。实验结果表明，该方法比标准的 RL 算法更能有效地达成目标。

Abstract

An agent that has well understood the environment should be able to apply its skills for any given goals, leading to the fundamental problem of learning the universal value function approximator (UVFA). A UVFA learns to predict the cumulative rewards between all state-goal pairs. Howev

universal value function approximator mdps hierarchical modeling farthest point sampling rl algorithms

发现论文，激发创造

统一地图和基于地标的视觉导航表示

提出了一种视觉导航的公式，该公式将基于地图的空间推理和路径规划与基于地标的稳健计划执行融合，该公式基于数据学习，能够高效地导航在新颖环境中，针对模拟现实世界环境进行了测试并报告了竞争基线方法的性能提高。

Dec, 2017

基于后继特征标志的长视程目标导向强化学习

本文介绍 Successor Feature Landmarks（SFL），它是用于大型、高维空间的探索的一个框架，该框架利用继承特征（SF）的能力来驱动探索，估计状态新颖性，并通过将状态空间抽象为基于非参数地标的图表，启用高级别规划，实现了 GCRL 任务上的超越表现。

Nov, 2021

基于地标的主动探索与稳定底层策略学习

本文介绍了一种基于目标状态和价值函数的探索策略，可以有效解决高层次策略的行动空间过大和低级别策略的动态变化导致高层次政策的不稳定性问题。

Jun, 2023

基于路标引导的分层强化学习子目标生成

本文介绍了 HIerarchical reinforcement learning Guided by Landmarks (HIGL) 框架，该框架通过引导探索性的 Landmarks 来训练具有减少动作空间的高层级策略，实现高效探索。实验结果表明，该框架在控制任务中表现优异。

Oct, 2021

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用

该研究考虑了两种不同的学习方式：模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法，并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题，在模仿学习方面也达到了标准基准任务的最新样本效率。

Feb, 2020

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

将世界模型视为图：学习用于规划的潜在地标

该论文提出 L3P 算法，使用稀疏的多步转换学习基于图结构的世界模型并生成 Q - 函数，其在高维连续控制任务上具有优越的性能，是深度强化学习中可扩展规划的重要进展。

Nov, 2020

价值函数空间：面向技能的状态抽象实现长程推理

该论文探讨了如何使用层次强化学习来解决长期任务中存在的性能问题，并提出了一种名为 Value Function Spaces 的状态抽象方法，通过利用对应于每个低层技能的价值函数来表示任务相关信息，从而在迷宫解决和机器人操纵等任务中提高了性能及零样本泛化能力。

Nov, 2021

跟随你的嗅觉：在强化学习中使用通用价值函数进行有向探索

本研究探索了使用 GVF 和有向探索策略结合探索和辅助任务学习的方法来提高强化学习中的样本效率，实验表明该方法在不同大小的网格导航任务中表现出优异的性能。

Mar, 2022