随机集成双 Q 学习：在没有模型的情况下快速学习

ICLRJan, 2021

随机集成双 Q 学习：在没有模型的情况下快速学习

Randomized Ensembled Double Q-Learning: Learning Fast Without a Model

Xinyue Chen, Che Wang, Zijian Zhou, Keith Ross

TL;DR本文介绍了一种名为 REDQ 的简单模型无关算法，通过大比例使用的 Update-To-Data（UTD）比率，在连续动作深度强化学习（DRL）基准测试中实现了与当前最先进的基于模型算法相媲美，甚至更好的性能，同时使用比基于模型的方法更少的参数，并且具有更少的挂钟运行时间，是首个成功使用 UTD 比率 >> 1 的连续动作空间的模型无关 DRL 算法。

Abstract

Using a high update-to-data (UTD) ratio, model-based methods have recently achieved much higher sample efficiency than previous model-free methods for continuous-action DRL benchmarks. In this paper, we introduce

update-to-data model-free algorithm double q-learning sample efficiency continuous-action spaces

发现论文，激发创造

动态更新到数据比率：最小化世界模型过度拟合

在强化学习等连续数据环境中，通过在未使用的一小部分数据上检测欠拟合和过拟合从而动态调整数据更新比率的新方法，比默认设置比更好的平衡欠拟合和过度估计，消除了手动设置超参数的需要，并使模型具有更高的健壮性，同时减少了必要的调试量。

Mar, 2023

双倍高效强化学习的 Dropout Q 函数

DroQ is proposed to improve the computational efficiency of REDQ. Dropout Q-functions equipped with dropout connection and layer normalization are used, achieving comparable sample efficiency with REDQ and better computational efficiency than both REDQ and SAC.

Oct, 2021

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021

无模型的后验采样通过学习率随机化

介绍了一种名为随机化 Q 学习（RandQL）的新型基于后验抽样的模型无关算法，用于减小判断失误在分节马尔可夫决策过程（MDPs）中的影响，分析了它在标表和非标表度量空间设置下的性能，表明其乐观探索方法优于现有的方法。

Oct, 2023

Q 学习是否可以被有效证明？

该研究论文探讨了模型无关的强化学习算法的样本效率问题，证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率，且无需模拟器，达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。

Jul, 2018

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

高回放比与规则化的高效稀疏奖励目标条件式强化学习

纵观文中，研究主要集中在强化学习方法中如何将高重放比率（RR）与正则化相结合，以推进稀疏奖励目标条件任务并提高样本效率。作者对 Randomized Ensemble Double Q-learning 方法进行了修改并应用于稀疏奖励目标条件任务，在 12 个机器人学任务的评估中表现出了约 2 倍于先前的最先进强化学习方法的样本效率，并同时降低了 REDQ 的复杂性，使之在 4 个 Fetch 机器人任务中达到了约 8 倍于先前方法的样本效率。

Dec, 2023

交通信号控制的随机集成强化学习

该研究提出一种名为 RElight 的动态学习交通信号控制策略的模型，并结合随机集成学习方法以避免陷入局部最优结果。研究还引入了 UTD 比率以控制数据重用数量，以提高数据利用率并在合成数据和实际数据上进行了实验以证明该方法优于现有最优方法。

Mar, 2022

智能采样：用于改进集成强化学习的自注意力和自助法

我们提出了一种新颖的方法，旨在增强集成 Q 学习的样本效率。我们的方法将多头自注意力集成到集成 Q 网络中，同时通过引导集成所吸收的状态 - 动作对来提升性能，从而改进了原始的 REDQ 和其变体 DroQ，并有效减小了 Q 函数集合的平均归一化偏差和标准偏差。重要的是，即使在低更新 - 数据比率的情况下，我们的方法也表现出色。值得注意的是，我们提出的方法的实现非常直观，只需要对基本模型进行最小程度的修改。

May, 2024

使用线性模型 U-Trees 探索可解释的深度强化学习

介绍了一种用于 Deep Reinforcement Learning 中 Q functions 的 mimic learning framework，使用 Linear Model U-trees 替代神经网络的 Q function 预测，通过分析特征影响、提取规则和突出图像输入中的超级像素来帮助理解神经网络的学习知识。

Jul, 2018