通过对比学习在强化学习中发现层次成就

Jul, 2023

通过对比学习在强化学习中发现层次成就

Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning

Seungyong Moon, Junyoung Yeom, Bumsoo Park, Hyun Oh Song

TL;DR在本研究中，我们发现了一种名为近似策略优化（PPO）的简单而多功能的无模型算法，其比之前的方法在最近的实施实践中表现更好。此外，我们还发现PPO代理在某种程度上能够预测下一个要解锁的成就，尽管置信度较低。基于这一发现，我们提出了一种名为成就蒸馏的新颖对比学习方法，该方法增强了代理预测下一个成就的能力。我们的方法在挑战性的Crafter环境中表现出强大的发现层次成就的能力，并以更少的模型参数在样本高效的范围内展示了最先进的性能。

Abstract

Discovering achievements with a hierarchical structure on procedurally generated environments poses a significant challenge. This requires agents to possess a broad range of abilities, including generalization an

发现论文，激发创造

层次化模仿与强化学习

论文提出了一种算法框架，称为层次性指导，旨在通过利用专家的反馈来学习序贯决策制定策略，以应对奖励稀疏和时间范围长等问题，该框架可以在不同的层次上组合不同的imitation learning和reinforcement learning，从而大大减少专家工作量和探索成本，并对该框架的某些实例的标注成本进行了理论分析。

Mar, 2018

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

分层强化学习中的子策略适应

本文提出了一种新的分层强化学习算法HiPPO，它可以根据新任务的训练不断调整技能并与更高层次一起训练，该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度，并提出了一种训练时抽象方法，以提高所获得技能对环境变化的鲁棒性。

Jun, 2019

为什么在强化学习中层级结构有时候能够成功?

本研究评估了层次强化学习中多个优点在包含运动、导航和操作的任务套件上的表现，发现大多数观察到的层次性优势可以归因于改进的探索，而不是政策学习或强制性的层次结构。给定此洞察，我们提出了启发式的探索技术，其性能与层次强化学习相当，同时使用和实现要简单得多。

Sep, 2019

通过发现内在选项进行分层强化学习

提出了一种层次强化学习方法HIDIO，该方法可以自监督地学习任务不可知的选项，同时学习利用这些选项来解决稀疏奖励任务。实验结果显示，相比于常规RL基线和两种最先进的层次化RL方法，HIDIO在稀疏奖励机器人操作和导航任务中具有更高的成功率和更高的样本效率。

Jan, 2021

基于像素的深度分层规划

通过在一个学习好的世界模型的潜在空间planning，我们引入了一种名叫Director的实用方法，直接从像素学习分层行为，无需手动指定目标空间或子任务，并在具有稀疏奖励的任务中表现超越了探索方法。

Jun, 2022

DEIR:基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法(DEIR)，实现了从代理探索中产生的新颖性的累积学习。在ProcGen数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023

稀疏奖励领域结构化探索的学习成就结构

提出了一种名为SEA的多阶段强化学习算法，用于处理内部包含成就的环境，首先使用离线数据学习已知成就的表示，然后通过启发式算法恢复学习成就的依赖关系图，并通过与该图交互来学习掌握已知成就并发掘新成就的策略，从而提高了高维度观察下的探索能力。

Apr, 2023

Agent-Pro: 通过策略层面的反思与优化进行学习进化

Agent-Pro 是基于 LLM 的智能代理，具备策略级别的反思和优化能力，可以通过互动经验不断学习和提升行为策略，在复杂和动态场景中表现出色。

Feb, 2024

选项的强化学习

目前的论文旨在探索强化学习领域，并在现有方法的基础上构建改进方法，以解决高维度和复杂环境中的学习问题。它通过分层的方式（称为层次强化学习）来分解学习任务，通过构建自主地学习层级结构的代理来提高效果。

Mar, 2024