基于分布式强化学习的新 Q 函数估计器和 QEMRL 算法通过误差分析和理论证明能够减小偏差和方差,并在 Atari 和 Mujoco 基准任务中显著提高了样本效率和收敛性能。
Jul, 2023
提出了两种算法,利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差,该方法在 D4RL 基准测试中表现出良好的性能。
通过将常步长 Q 学习与时间齐次马尔可夫链连接,在 Wasserstein 距离中展示了迭代的分布收敛性,建立了其指数收敛速度;我们还为 Q 学习迭代建立了中心极限定理,证明了平均迭代的渐近正态性;此外,我们提供了对步长渐近偏差的显式扩展,具体而言,偏差与步长成比例,我们为线性系数提供了一个明确的表达式;这个对偏差的精确刻画允许应用 Richardson-Romberg 外推技术来构造一个新估计,该估计可证明比最优的 Q 函数更接近;数值结果证实了我们在 RR 外推方法改进方面的理论发现。
Jan, 2024
本文介绍了一种可证明有效的基于线性函数逼近的 $Q$-learning 算法,提出了 DSEC oracle 概念,该算法使用多项式数量的轨迹返回近似最优策略,并可用于设计和分析具有一般函数逼近的强化学习算法。
Jun, 2019
本论文提出的一种深度深度强化学习探索方法具有两个组成部分:有一个递减的时间表来抑制内在不确定性,一个探索奖励是从所学分布的上分位数中计算出来的,实验结果表明,我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩,在难度较大的 3D 驾驶模拟器 (CARLA) 中,我们的算法安全奖励达到了近乎最优,比 QRDQN 快两倍。
May, 2019
通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法,本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点,并为该算法衍生的策略提供性能保证。
本研究通过对 Extreme Gradient Boosting (XGBoost) 的改进,使用修正后的分位数回归作为目标函数以估计不确定性 (QXGBoost),并将其应用于预测间隔的创建,并将其应用于一个模拟数据集和一个实际环境数据集中的测量交通噪声,结果表明该方法在预测间隔方面的整体性能要优于其他基于覆盖范围准则的模型。
Apr, 2023
我们提出了新算法 MQL-UCB,通过探索 - 利用困境实现了具有函数逼近的强化学习,解决了切换策略的成本和函数类复杂性的问题,同时在历史轨迹中利用了高数据效率,实现了最小化遗憾和最优切换成本。
Nov, 2023
我们提出了一种新的 Q 学习变体,称为 2RA Q 学习,以有原则的方式解决现有 Q 学习方法的一些弱点。我们对最大期望值项提出了鲁棒分布估计器,从而可以精确控制引入的估计偏差水平。分布鲁棒估计器具备闭合解,因此所提出的算法每次迭代的计算成本与 Watkins 的 Q 学习可比。对于表格情况,我们证明 2RA Q 学习收敛到最优策略,并分析其渐近均方误差。最后,我们进行了各种设置的数值实验,证实了我们的理论发现,并表明 2RA Q 学习通常优于现有方法。
May, 2024
本论文提出了两种模型无关的算法,分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中,这些算法的理论发现和效率得到了证实。
May, 2023