通过策略空间中的最优传输测量强化学习中的探索

Feb, 2024

通过策略空间中的最优传输测量强化学习中的探索

Measuring Exploration in Reinforcement Learning via Optimal Transport in Policy Space

PDF

Reabetswe M. Nkhumise, Debabrota Basu, Tony J. Prescott, Aditya Gilra

TL;DR量化和比较强化学习算法通过知识传递在探索和学习方面的努力，并使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度，从而提供有关强化学习算法的探索行为的洞见并比较不同算法的探索行为。

Abstract

exploration is the key ingredient of reinforcement learning (RL) that determines the speed and success of →

reinforcement learning exploration learning knowledge transfer supervised learning

发现论文，激发创造

强化学习中探索在任务迁移中的作用

探索利用平衡是强化学习领域中一个著名且被广泛研究的问题，该研究旨在探讨探索策略在在线任务迁移中的作用并分析探索方法的不同之处以期为未来的研究提出方向。

Oct, 2022

风险感知强化学习基于最优输运理论

该论文以最优传输理论（OT）为基础，通过修改目标函数，提出了一种风险感知的强化学习框架，以确保决策的可靠性，并且在最大化预期回报的同时，尊重通过状态访问分布和期望风险配置之间的 OT 距离所规定的风险约束。通过利用 OT 的数学精度，论文提供了一种能够将风险考虑与传统强化学习目标相平衡的公式化方法，通过一系列定理来证明了风险分布、最优值函数和策略行为之间的关系。该研究通过 OT 的视角为强化学习提供了一个有前景的方向，确保奖励追求与风险意识的平衡融合。

Sep, 2023

最优传输辅助的风险敏感 Q-Learning

通过将最优输运理论融入 Q-learning 框架，本文提出一种风险敏感的 Q-learning 算法来增强智能体的安全性，以期在优化策略的期望回报的同时，最小化策略的稳态分布与预先定义的风险分布之间的 Wasserstein 距离，从而减少访问危险状态的频率并比传统的 Q-learning 算法更快地趋于稳定的策略。

Jun, 2024

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

基於強化學習的探索方法綜述

本文介绍了关于（连续）强化学习中现代探索方法的调查，以及探索方法的分类。

Sep, 2021

评估分布偏移对强化学习性能的影响

针对分布转换情况下的强化学习进行严格评估的方法研究。

Feb, 2024

结合强化学习和最优传输的旅行商问题

利用熵正则化最优传输技术作为深度强化学习网络中的一层，以实现更快速的学习并在端到端训练期间强制执行分配约束和规定，从而对于解决组合优化问题的效率进行优化。

Mar, 2022

学习最优输运度量下的概率度量

通过优化传输度量，在嵌入 Hilbert 空间的流形上估计一种衡量方法，并将量化优化和学习理论联系起来，为无监督学习中经典算法（k-means）的性能提供新的概率界限。在分析的过程中，我们得出了新的下界和概率上界，这些上下界适用于广泛的测度范围。

Sep, 2012

在外科机器人环境中利用最优传输优化离线强化学习

介绍了一种新颖的算法 Optimal Transport Reward（OTR）标记，用于给离线轨迹分配奖励，并且使用少量高质量的专家示范来帮助计算奖励信号。通过在手术机器人学习领域展示 OTR 的有效性，强调其多样性和促进强化学习在各个领域上部署的潜力。

Oct, 2023

探索是否足够？强化学习中用于迁移的有效探索特征

通过分析探索算法的特点和效果，我们研究了深度强化学习中的在线迁移学习，发现某些特征与多种迁移任务的有效性和效率改善相关，为特定迁移情况提供了有针对性的探索算法特征建议。

Apr, 2024