细致估计，大胆探索

Aug, 2023

Careful at Estimation and Bold at Exploration

Xing Chen, Yijun Liu, Zhaogeng Liu, Hechang Chen, Hengshuai Yao...

TL;DR基于双Q函数框架，引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题，通过使用贪婪Q值和保守Q值的加权和来更新Q值，将行动探索与Q值更新相结合，并在Mujoco基准测试中展示了优越的性能。

Abstract

exploration strategies in continuous action space are often heuristic due to the infinite actions, and these kinds of methods cannot derive a general conclusion. In prior work, it has been shown that

发现论文，激发创造

元策略梯度学习探索

该研究论文提出了一种基于`meta-policy gradient`算法的自适应学习方法，可用于解决现有基于添加噪声的探索方法仅能探索接近actor策略的局部区域的问题，从而实现独立于actor策略的全局探索，而这对各种强化学习任务的样本效率都有相当大的提升。

Mar, 2018

基于交叉熵引导策略的连续动作Q学习

本文提出了一个名为Cross-Entropy Guided Policies (CGP)的新方法来将Q-learning与使用Cross-Entropy Method (CEM)的迭代采样策略相结合，以提高其在连续值动作域中的运行速度和稳定性。

Mar, 2019

乐观演员-评论家算法实现更好的探索

本论文提出了一种新的强化学习算法——乐观的Actor-Critic方法(OAC)，通过在状态动作值函数上近似上限和下限的置信区间，实现了在探索性上的乐观及方向性采样，从而提高了算法对连续控制任务的采样效率。

Oct, 2019

通过最大化Rényi熵进行无奖励强化学习框架探索

通过最大化Renyi熵的方法，提出了一种适用于元RL的无奖励强化学习框架，该框架有效地解决了探索和利用分离的问题，并设计了相应的强化学习算法(batch RL algorithm)以便在规划阶段中能更好地处理任意奖励函数。

Jun, 2020

关于连续动作空间中策略镜像上升的隐藏偏差

本文针对连续动作空间下的强化学习问题，提出一种基于重尾分布参数化的策略梯度算法，并对该算法进行了理论和实验研究，表明该算法相比于标准基准在多种场景下都能得到改进的奖励累积结果。

Jan, 2022

基于偏好引导的随机探索增强学习高效采样方法

本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法，以数据效率为主要目标，并使用深度 Q 学习的算法作为研究对象，理论证明了这种算法在策略改进方面的有效性，并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。

Jun, 2022

抓住意外收获：利用往期成功价值进行非同策略演员-评论家算法

提出了混合利用和探索算法（BEE）来解决强化学习后期出现的低估Q值问题，具有较高的样本效率和实用性。

Jun, 2023

f-策略梯度: 一种使用f-散度的目标条件化强化学习的通用框架

此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法，通过最小化智能体状态访问分布与目标之间的 f-分歧来实现稀疏奖励环境下的优化策略，同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励，在多个环境中展示了与标准策略梯度方法相比更好的性能。

Oct, 2023

深度强化学习中的高效探索：一种新颖的贝叶斯演员-评论家算法

本研究针对深度强化学习（DRL）中探索效率不足的问题，提出了一种新颖的贝叶斯演员-评论家算法，旨在提升环境的有效探索能力。通过理论研究和实证评估，证明该方法在标准基准和先进评估套件上的优越性，预计将为强化学习社区提供重要的工具和基础。

Aug, 2024

缓解复杂Q函数中确定性策略梯度的次优性

本研究针对强化学习中确定性策略梯度方法（如DDPG和TD3）在复杂任务中的局部最优问题，提出了一种新型演员架构。通过使用多个演员和更易于优化的Q函数替代品，该架构能够更频繁地找到最优动作，并在多项任务中表现优于其他演员架构。

Oct, 2024