学习通过选项框架整合强化学习的探索策略

Oct, 2023

学习通过选项框架整合强化学习的探索策略

LESSON: Learning to Integrate Exploration Strategies for Reinforcement Learning via an Option Framework

Woojun Kim, Jeonghye Kim, Youngchul Sung

TL;DR提出了基于选项评论家模型的统一强化学习探索框架，该框架学习集成一组多样的探索策略，使得智能体能够自适应地选择最有效的探索策略，以实现给定任务的相关探索与利用平衡。通过在 MiniGrid 和 Atari 环境中进行各种实验验证了所提探索框架的有效性。

Abstract

In this paper, a unified framework for exploration in reinforcement learning (RL) is proposed based on an option-critic model. The propose

exploration reinforcement learning option-critic model exploration strategies exploration-exploitation trade-off

发现论文，激发创造

内在动机选项学习：最近方法的比较研究

在强化学习中，Option 在不同时间尺度上进行推理的框架已引起研究界的广泛关注。近年来，无监督学习成为强化学习的研究热点，并在 Option 框架中引入了 “Empowerment”（赋权）这一概念，这是代理人对环境影响力的程度和感知这种影响的能力，可以在没有环境奖励结构的监督下进行优化。许多近期的研究通过多种方式修改这个概念并取得了令人瞩目的结果。本研究通过赋权原则的视角对这些论文进行了比较研究。

Jun, 2022

基于选项框架的多模式探索的自主非单态智能体

探索如何自主确定一个多模态探索非单块行为的选项框架，以提高强化学习中的表现。

May, 2023

选项的强化学习

目前的论文旨在探索强化学习领域，并在现有方法的基础上构建改进方法，以解决高维度和复杂环境中的学习问题。它通过分层的方式（称为层次强化学习）来分解学习任务，通过构建自主地学习层级结构的代理来提高效果。

Mar, 2024

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

Successor Options: 基于继承关系的强化学习选项发现框架

探讨一种名为 Successor Options 的新方法，该方法使用 Successor Representations 构建状态空间模型，通过学习伪奖励来了解内部操作策略，并且适用于高维空间的机器人控制环境。

May, 2019

通过元学习子目标发现选项

使用元梯度法发现多任务强化学习环境中有用的选项的新方法，该方法使用一个管理器将发现的任务选项和基本操作结合在一起，并通过神经网络优化子目标的奖励和终止函数，实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项，并且帮助初学者的学习速度更快。

Feb, 2021

强化学习中探索在任务迁移中的作用

探索利用平衡是强化学习领域中一个著名且被广泛研究的问题，该研究旨在探讨探索策略在在线任务迁移中的作用并分析探索方法的不同之处以期为未来的研究提出方向。

Oct, 2022

分布式强化学习探索

该研究提出了一种基于分布强化学习和结合贝叶斯参数更新与深度强化学习的框架，将多种先前的探索方法进行了概念统一，并推导出一个实用算法，在具有挑战性的控制任务上实现高效的探索。

May, 2018

深度选项学习中权重共享的作用

本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展，可以显著提高使用长期选项训练游戏的稳定性和效率。

Dec, 2019

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023