一种融合估计和规划的最大化目标用于探索

May, 2023

一种融合估计和规划的最大化目标用于探索

One Objective to Rule Them All: A Maximization Objective Fusing Estimation and Planning for Exploration

Zhihan Liu, Miao Lu, Wei Xiong, Han Zhong, Hao Hu...

TL;DR本研究提出了一个易于实现的 RL 框架 Maximize to Explore（MEX），它通过最大化一个综合了估计和规划分量的单一目标，在自动平衡探索和利用方面实现了比现有算法更高的采样效率，并实现了更低的计算成本和更好的与现代深度 RL 方法兼容性。

Abstract

In online reinforcement learning (online RL), balancing exploration and exploitation is crucial for finding an optimal policy in a sample-efficient way. To achieve this, existing sample-efficient online RL algori

online reinforcement learning maximize to explore sample efficiency exploration function approximators

发现论文，激发创造

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

基于模型的主动探索

论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索，该算法使用前向模型的集合来规划观察新事件的行为，优化代理行为，通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性，实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级，能够扩展到高维连续环境。

Oct, 2018

通过最大化 Rényi 熵进行无奖励强化学习框架探索

通过最大化 Renyi 熵的方法，提出了一种适用于元 RL 的无奖励强化学习框架，该框架有效地解决了探索和利用分离的问题，并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。

Jun, 2020

元强化学习的探索与利用解耦，无需牺牲

本文提出一种基于策略梯度优化的元强化学习方法，该方法不但可以在学习新任务时快速利用之前相关任务的经验，还能自动识别任务相关信息来避免局部最优解。实验结果表明，该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。

Aug, 2020

强化学习的无奖励探索

该论文提出了一个新的 “无奖励强化学习” 框架，通过在探索阶段从 MDP 采集轨迹来找到探索策略，并使用黑盒近似规划器计算接近最优的策略。

Feb, 2020

在线马尔可夫决策过程中全局凸奖励的强化学习中的勘探利用权衡

研究了在 Markov 决策问题中，代理人通过在线凸规划算法设计非固定策略，以最大化全局凹奖励函数和矢量结果的均值，以解决多目标优化和 Markov 环境下的受限优化问题。

May, 2019

基于核和神经函数逼近的无奖励强化学习：单智能体马尔可夫决策过程和马尔可夫博弈

该研究针对强化学习中探索困境的问题，研究了无奖励的强化学习问题，提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法，证明了该方法可以在提供任意外界奖励的情况下，实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度，是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。

Oct, 2021

Exploiter 的威力：在大状态空间下可证明的多智能体强化学习

本文提出了一个新算法，能够有效地应用于大量状态空间问题中的多智能体强化学习，以寻找具有低复杂度的多代理贝尔曼 - 伊鲁德维度的零和马尔科夫博弈 Nash 平衡策略。

Jun, 2021

具有可证明保证的非线性多目标强化学习

RA-E3 是一个算法，能够解决单目标或多目标的马尔可夫决策过程中的奖励积累函数期望值最大化问题，并且可以用于多目标强化学习中的公平感知、风险感知以及以非线性 Von Neumann-Morgenstern 效用函数进行的单目标强化学习。该算法基于扩展的非线性优化 Bellman 最优性，明确考虑了时间和当前累积奖励，并通过多项式时间教学学习一个近似最优策略。

Nov, 2023

强化学习中的保守探索

本文介绍了在概率有限马尔可夫决策问题中引入保守探索的概念，并提出了两种乐观算法，以保证学习过程中不违反保守约束，这不会妨碍算法的学习能力，并给出了后悔界限。

Feb, 2020