为高效探索确定目标取向轨迹

ICMLJul, 2018

Goal-oriented Trajectories for Efficient Exploration

Fabio Pardo, Vitaly Levdik, Petar Kormushev

TL;DR本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Abstract

exploration is a difficult challenge in reinforcement learning and even recent state-of-the art curiosity-based methods rely on the simple

reinforcement learning exploration curiosity-based methods random goals selection off-policy reinforcement learning agents

发现论文，激发创造

深度强化学习自适应路径约束的探索策略

提出了一种用于深度强化学习的高效适应性轨迹约束探索策略，利用不完整的离线演示作为参考，引入了一种新的基于策略梯度的优化算法，为单智能体和多智能体强化学习提供了一种自适应剪切轨迹距离奖励的方法。通过对两个大型二维网格世界迷宫和几个 MuJoCo 任务的实验验证，证明了该方法在实现时间延长的探索和避免短视和次优行为方面的显著优势。

Dec, 2023

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

通过修剪原型目标扩展目标导向探索的规模

本研究基于强化学习，通过在人工设计产生的广泛目标空间中寻找可控、可达、新颖和相关目标的自主发现过程，弥补探索广域领域中新奇性和涵盖性行为不足的问题，并在三种具有挑战性的环境中证明了目标导向的探索的有效性。

Feb, 2023

先回报，后探索

Go-Explore 算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则，直接解决了探索中的 “detach” 和 “derailment” 问题，并在所有难探索游戏上超越了现有技术，并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。

Apr, 2020

基于好奇心探索的目标条件离线规划

通过分析优化目标条件下的价值函数的几何特征，我们提出了一种使用基于模型的规划和基于图形的价值聚合方案相结合的方法来纠正学习价值函数中的估计伪像，并在各种模拟环境中显著提高了零 - shot 目标达成性能。

Nov, 2023

深度强化学习多样性驱动的探索策略

本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Feb, 2018

长时间多目标强化学习的最大熵增益探索

本文探讨了当测试目标分布过于远离时，多目标强化学习应当追求怎样的目标，提出了优化历史完成目标分布熵的内在目标，通过在目标空间中极少被探索区域内的历史完成目标的追求实现探索，成功提高了长期目标任务中的数据利用效率。

Jul, 2020

强化学习的无奖励探索

该论文提出了一个新的 “无奖励强化学习” 框架，通过在探索阶段从 MDP 采集轨迹来找到探索策略，并使用黑盒近似规划器计算接近最优的策略。

Feb, 2020

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

强化学习中的无任务探索

该研究提出了一种称为任务不可知强化学习 (task-agnostic RL) 的框架，用于解决强化学习中的有效探索挑战，该框架利用样本奖励值和一系列探索轨迹来发现复杂任务的最优策略，并给出了基于样本奖励值的有效算法 UCBZero。

Jun, 2020