慕尼黑强化学习
本文介绍了一种基于分布式强化学习的方法,通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法,并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能,并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。
Jun, 2018
本文针对 Munchausen 强化学习在 Tsallis sparsemax 策略下无法表现出优越性能的问题,提出了基于 Tsallis Entropy 的 $q$-logarithm/exponential 方法,解决了传统 logarithm 和非 logarithmic Tsallis entropy 之间的不匹配问题,使 M-RL 能在 Tsallis entropy 框架下实现隐式的 KL 规则正化,同时在标准测试问题上取得了超越表现。
May, 2022
通过更好地利用专家演示,我们提出了两种简单的方法,即将专家演示数据放入内部强化学习算法的重放缓冲区中以直接通知学习器高奖励状态,以及在 Q 值引导中使用专家操作以改善目标 Q 值估计并更准确地描述高价值专家状态。在 MuJoCo 任务套件中,我们的方法相对于 MaxEntIRL 基准在 HalfCheetah-v2 上将恢复速度提高 2.13 倍,在 Ant-v2 上提高 2.6 倍,在 Hopper-v2 上提高 18 倍,在 Walker2d-v2 上提高 3.36 倍。
Feb, 2024
为解决强化学习中复杂环境下的探索问题,本文提出了一种简单的算法 bootstrapped DQN,通过使用随机值函数实现计算上和统计上的高效探索。与 epsilon-greedy 策略不同,bootstrapped DQN 实现了时序扩展探索,从而可以实现指数级别的更快学习。我们在复杂随机 MDPs 和大规模的街机学习环境中展示了这些优点,并发现 Bootstrapped DQN 可以显著提高 Atari 游戏的学习时间和表现。
Feb, 2016
本文介绍了一种分布强化学习方法,不仅仅用于估计价值函数的平均值,而是显式地建模返回的分布,通过闭合实验和文献相关得到了一些理论和算法上的结果,最后在 Atari 2600 游戏中,该算法的表现显著优于许多 DQN 的改进方案,包括相关的分布式算法 C51。
Oct, 2017
利用 GAN 模型的生成器和判别器函数与分位数回归来近似状态行动返回分布的完整分位数值,结合最近的分布强化学习的进展,实现了基于 IQN 的最新分布式变体模型,并在 ALE 中基于 57 种 Atari 2600 游戏的基准数据集上演示了改进的性能,进而使用策略优化和评估的方式展示了对风险敏感策略的最新训练表现。
Jun, 2022
利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习(IBRL),在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率,是 RLPD 方法的 6.4 倍成功率的新亮点。
Nov, 2023
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在 Atari 游戏中。
Feb, 2018
通过从高斯分布中采样引入噪音,本研究探讨了用噪声替换先验知识来增加 Bootstrapped Deep Q-Learning 中多样性的可能性,并在 Atari 基准上实验,将该算法与原始算法及其他相关算法进行了比较,结果表明该修改方案显著提高了模型的评估分数,保证了多样性的完整性。
Mar, 2022