强化学习中探索在任务迁移中的作用

Oct, 2022

强化学习中探索在任务迁移中的作用

The Role of Exploration for Task Transfer in Reinforcement Learning

Jonathan C Balloch, Julia Kim, and Jessica L Inman, Mark O Riedl

TL;DR探索利用平衡是强化学习领域中一个著名且被广泛研究的问题，该研究旨在探讨探索策略在在线任务迁移中的作用并分析探索方法的不同之处以期为未来的研究提出方向。

Abstract

The exploration--exploitation trade-off in reinforcement learning (RL) is a well-known and much-studied problem that balances greedy actio

reinforcement learning exploration exploitation online task transfer adaptation

发现论文，激发创造

探索是否足够？强化学习中用于迁移的有效探索特征

通过分析探索算法的特点和效果，我们研究了深度强化学习中的在线迁移学习，发现某些特征与多种迁移任务的有效性和效率改善相关，为特定迁移情况提供了有针对性的探索算法特征建议。

Apr, 2024

通过策略空间中的最优传输测量强化学习中的探索

量化和比较强化学习算法通过知识传递在探索和学习方面的努力，并使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度，从而提供有关强化学习算法的探索行为的洞见并比较不同算法的探索行为。

Feb, 2024

基於強化學習的探索方法綜述

本文介绍了关于（连续）强化学习中现代探索方法的调查，以及探索方法的分类。

Sep, 2021

探索感知强化学习再探

研究在强化学习中的探索和利用的权衡，通过解决探索感知标准来获得最优政策，结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中，相对于非探索感知对应物表现出更好的性能。

Dec, 2018

强化学习中的探索与利用：一种随机控制方法

研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案，提出使用行为分布的微分熵来规范化奖励函数的熵正则化，并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索，最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时，解法能够收敛于经典 LQ 问题的解。

Dec, 2018

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

元强化学习的探索与利用解耦，无需牺牲

本文提出一种基于策略梯度优化的元强化学习方法，该方法不但可以在学习新任务时快速利用之前相关任务的经验，还能自动识别任务相关信息来避免局部最优解。实验结果表明，该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。

Aug, 2020

深度强化学习中的迁移学习：综述

调查了深度强化学习中迁移学习方法的最新进展，提供了对目标，方法，兼容强化学习骨架以及实际应用等方面分析的框架，并从强化学习的角度探讨了迁移学习与其他相关话题之间的联系和潜在挑战。

Sep, 2020

多任务强化学习的样本复杂度

介绍了一种新的多任务算法用于强化学习任务，该算法显着减少了探索的每个任务的样本复杂性，并保证不会出现负转移，与对应的单任务算法相比具有可比性。

Sep, 2013

基于偏好成本学习的任务转移

本文提出了一个新的任务转移框架，通过专家偏好作为指导，无需明确的成本函数，随着增强的 Adversarial MaxEnt IRL，学习目标代价函数和轨迹分布，并通过选择结果生成更多的轨迹，实验证明了该方法的效果。

May, 2018