基於強化學習的探索方法綜述

Sep, 2021

A Survey of Exploration Methods in Reinforcement Learning

Susan Amin, Maziar Gomrokchi, Harsh Satija, Herke van Hoof, Doina Precup

TL;DR本文介绍了关于（连续）强化学习中现代探索方法的调查，以及探索方法的分类。

Abstract

Exploration is an essential component of reinforcement learning algorithms, where agents need to learn how to predict and control unknown and often stochastic environments. →

reinforcement learning exploration methods predictive control stochastic environments taxonomy

发现论文，激发创造

强化学习：一项调查

本论文从计算机科学的角度调查了强化学习领域，包括历史、现状和实践应用等方面，并重点探讨了强化学习中的中心问题，如平衡探索和利用、马尔可夫决策理论、延迟强化学习等。

May, 1996

强化学习中探索在任务迁移中的作用

探索利用平衡是强化学习领域中一个著名且被广泛研究的问题，该研究旨在探讨探索策略在在线任务迁移中的作用并分析探索方法的不同之处以期为未来的研究提出方向。

Oct, 2022

进化强化学习：综述

这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法，涉及强化学习中的关键研究领域及未来方向，为研究者和实践者提供参考和资源。

Mar, 2023

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

通过策略空间中的最优传输测量强化学习中的探索

量化和比较强化学习算法通过知识传递在探索和学习方面的努力，并使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度，从而提供有关强化学习算法的探索行为的洞见并比较不同算法的探索行为。

Feb, 2024

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

探索感知强化学习再探

研究在强化学习中的探索和利用的权衡，通过解决探索感知标准来获得最优政策，结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中，相对于非探索感知对应物表现出更好的性能。

Dec, 2018

可解释性强化学习综述：概念、算法、挑战

本篇综述论文将积极介绍深度强化学习与可解释机器学习的交叉，比较了先前的方法，提出了一种补充，阐明了深度学习对智能机器人控制任务的适用性，强调机器学习与人类知识相互融合提升学习效率和性能的意义，并评估了未来 XRL 研究面临的挑战和机遇。

Nov, 2022

动态环境下强化学习算法综述

本文综述了针对动态环境模型的强化学习方法，目的是在学习过程中最小化奖励损失或找到适当的策略以实现在不断变化的操作条件下智能体的适应，并讨论了这些方法的优缺点以及未来的改进方向。

May, 2020

强化学习中的抽象理论

本文介绍了强化学习中抽象的理论，提供了符合需求的抽象函数的要求，并介绍了一组新算法和分析，旨在最大程度地减少有效强化学习的复杂性。

Mar, 2022