细致估计,大胆探索
该研究论文提出了一种基于`meta-policy gradient`算法的自适应学习方法,可用于解决现有基于添加噪声的探索方法仅能探索接近actor策略的局部区域的问题,从而实现独立于actor策略的全局探索,而这对各种强化学习任务的样本效率都有相当大的提升。
Mar, 2018
本文提出了一个名为Cross-Entropy Guided Policies (CGP)的新方法来将Q-learning与使用Cross-Entropy Method (CEM)的迭代采样策略相结合,以提高其在连续值动作域中的运行速度和稳定性。
Mar, 2019
本论文提出了一种新的强化学习算法——乐观的Actor-Critic方法(OAC),通过在状态动作值函数上近似上限和下限的置信区间,实现了在探索性上的乐观及方向性采样,从而提高了算法对连续控制任务的采样效率。
Oct, 2019
通过最大化Renyi熵的方法,提出了一种适用于元RL的无奖励强化学习框架,该框架有效地解决了探索和利用分离的问题,并设计了相应的强化学习算法(batch RL algorithm)以便在规划阶段中能更好地处理任意奖励函数。
Jun, 2020
本文针对连续动作空间下的强化学习问题,提出一种基于重尾分布参数化的策略梯度算法,并对该算法进行了理论和实验研究,表明该算法相比于标准基准在多种场景下都能得到改进的奖励累积结果。
Jan, 2022
本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法,以数据效率为主要目标,并使用深度 Q 学习的算法作为研究对象,理论证明了这种算法在策略改进方面的有效性,并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。
Jun, 2022
此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法,通过最小化智能体状态访问分布与目标之间的 f-分歧来实现稀疏奖励环境下的优化策略,同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励,在多个环境中展示了与标准策略梯度方法相比更好的性能。
Oct, 2023
本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。
Aug, 2024
本研究针对强化学习中确定性策略梯度方法(如DDPG和TD3)在复杂任务中的局部最优问题,提出了一种新型演员架构。通过使用多个演员和更易于优化的Q函数替代品,该架构能够更频繁地找到最优动作,并在多项任务中表现优于其他演员架构。
Oct, 2024