基于非参状态熵估计的策略梯度无任务探索
研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案,提出使用行为分布的微分熵来规范化奖励函数的熵正则化,并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索,最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时,解法能够收敛于经典 LQ 问题的解。
Dec, 2018
通过最大化Renyi熵的方法,提出了一种适用于元RL的无奖励强化学习框架,该框架有效地解决了探索和利用分离的问题,并设计了相应的强化学习算法(batch RL algorithm)以便在规划阶段中能更好地处理任意奖励函数。
Jun, 2020
本文探讨了当测试目标分布过于远离时,多目标强化学习应当追求怎样的目标,提出了优化历史完成目标分布熵的内在目标,通过在目标空间中极少被探索区域内的历史完成目标的追求实现探索,成功提高了长期目标任务中的数据利用效率。
Jul, 2020
本文介绍了通过Geometric Entropy Maximisation(GEM)算法,实现在离散和连续领域中最大化状态访问的Shannon熵的几何感知,以解决复杂的强化学习问题。该算法的优势在于可以很好地解决具有稀疏奖励的强化学习问题,并被证实比其他深度强化学习探索方法更有效。
Jan, 2021
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用2倍样本,比模型自由方法少用200倍样本。
Oct, 2022
本文提出了一种基于价值条件下的状态熵探索技术,该技术通过最大化条件价值估计的状态熵的平均值,分别估计每个状态的状态熵,再通过只考虑状态价值估计相似的访问状态来计算内在奖励,从而避免了低价值状态分布影响高价值状态周围的探索,加速了多种RL算法在各种任务中的表现。
May, 2023
此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法,通过最小化智能体状态访问分布与目标之间的 f-分歧来实现稀疏奖励环境下的优化策略,同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励,在多个环境中展示了与标准策略梯度方法相比更好的性能。
Oct, 2023
我们提出了一种新的分析方法,并区分了探索技术的两个不同影响。首先,它们使得能够平滑学习目标并消除局部最优解,同时保留全局最优解。其次,它们修改了梯度估计,增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上,我们讨论并通过熵奖励进行了实证研究,突出了其局限性,并为该策略的设计和分析开辟了未来的研究方向。
Jan, 2024