SPQR：使用尖峰随机模型控制 Q - 集合独立性的强化学习

Jan, 2024

SPQR：使用尖峰随机模型控制 Q - 集合独立性的强化学习

SPQR: Controlling Q-ensemble Independence with Spiked Random Model for Reinforcement Learning

Dohyeok Lee, Seungyub Han, Taehyun Cho, Jungwoo Lee

TL;DR为了克服过度估计偏差，在深度强化学习中提出了一种新的正则化损失函数，基于随机矩阵理论的销钉 Wishart Q 集合独立正则化（SPQR），以增强多个 Q 函数的多样性，通过实现 SPQR 在在线和离线集合 Q 学习算法中进行实验证明，SPQR 在在线和离线强化学习基准测试中表现出色。

Abstract

Alleviating overestimation bias is a critical challenge for deep reinforcement learning to achieve successful performance on more complex tasks or offline datasets containing out-of-distribution data. In order to

overestimation bias ensemble methods q-learning diversity injection methods reinforcement learning

发现论文，激发创造

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

脉冲 Q 学习的深度强化学习

本研究提出了一种名为 DSQN 的深度尖峰 Q 网络，使用非尖峰神经元的膜电压作为 Q 值的表示，可以从高维度的感官输入中直接学习稳健的决策，并在 17 个 Atari 游戏中表现出优异的性能，具有更好的学习稳定性和对抗攻击鲁棒性。

Jan, 2022

高回放比与规则化的高效稀疏奖励目标条件式强化学习

纵观文中，研究主要集中在强化学习方法中如何将高重放比率（RR）与正则化相结合，以推进稀疏奖励目标条件任务并提高样本效率。作者对 Randomized Ensemble Double Q-learning 方法进行了修改并应用于稀疏奖励目标条件任务，在 12 个机器人学任务的评估中表现出了约 2 倍于先前的最先进强化学习方法的样本效率，并同时降低了 REDQ 的复杂性，使之在 4 个 Fetch 机器人任务中达到了约 8 倍于先前方法的样本效率。

Dec, 2023

UQ-ARMED: 面向聚类非独立同分布数据的对抗正则化混合效应深度学习的不确定性量化

本文比较了 4 种常见的表观 UQ 方法，即 BNN、SWAG、MC dropout 和集成方法，在 ARMED MEDL 模型的统计指标、协变系数和预测置信度方面的能力，实验结果表明，90％子采样的集成方法提供了最佳的全面性能，同时保持 MEDL 使用 ARMED 的基线性能，并为模型拟合，协变系数和预测提供了统计显着性。

Nov, 2022

卫星降水的空间插值中的不确定性估计与集成学习

在空间插值和其他领域中，通过使用九种基于分位数的集成学习方法，将距离加权卫星降水数据与位置高程相结合，通过对比量化打分函数，证明了堆叠方法在提高概率预测方面的潜力。

Mar, 2024

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

深度抗正则化集成提供可靠的外部分布不确定性量化

本文提出了一种使用反正则化和控制过程的方法，来解决深度集成网络中的过度自信估计问题，该方法不需要任何超参数校准，并在回归和分类设置中得到了验证。

Apr, 2023

对复杂动态系统中认识不确定性和随机不确定性量化的机器学习架构评估

本研究比较了多种机器学习技术的 UQ 准确性，并对两个模型（船只在波浪中的运动和 Majda-McLaughlin-Tabak 模型）进行了应用。

Jun, 2023

量子自然政策梯度：朝着样本有效的强化学习

使用变分量子电路作为函数逼近器，提出了量子自然策略梯度（Quantum Natural Policy Gradient，QNPG）算法。在 Contextual Bandits 环境中进行实验，证明 QNPG 相对于基于一阶的训练具有更快的收敛速度和稳定性，从而减少了样本复杂度，并在 12 量子比特硬件设备上进行了训练。

Apr, 2023

基于 VQC 的数据重上传强化学习：性能和可训练性

基于经验证据，本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型，研究了该模型在经典控制基准环境中的性能和可训练性，探讨了数据重新上传对这些指标的影响，并发现 VQC 在这种环境中具有适用性，且在逼近 2 设计时，增加量子比特数不会导致梯度的幅度和方差指数级递减。

Jan, 2024