智能采样：用于改进集成强化学习的自注意力和自助法

May, 2024

智能采样：用于改进集成强化学习的自注意力和自助法

Smart Sampling: Self-Attention and Bootstrapping for Improved Ensembled Q-Learning

Muhammad Junaid Khan, Syed Hammad Ahmed, Gita Sukthankar

TL;DR我们提出了一种新颖的方法，旨在增强集成 Q 学习的样本效率。我们的方法将多头自注意力集成到集成 Q 网络中，同时通过引导集成所吸收的状态 - 动作对来提升性能，从而改进了原始的 REDQ 和其变体 DroQ，并有效减小了 Q 函数集合的平均归一化偏差和标准偏差。重要的是，即使在低更新 - 数据比率的情况下，我们的方法也表现出色。值得注意的是，我们提出的方法的实现非常直观，只需要对基本模型进行最小程度的修改。

Abstract

We present a novel method aimed at enhancing the sample efficiency of ensemble q learning. Our proposed approach integrates multi-head self-atten

ensemble q learning multi-head self-attention sample efficiency normalized bias q-function ensembles

发现论文，激发创造

双倍高效强化学习的 Dropout Q 函数

DroQ is proposed to improve the computational efficiency of REDQ. Dropout Q-functions equipped with dropout connection and layer normalization are used, achieving comparable sample efficiency with REDQ and better computational efficiency than both REDQ and SAC.

Oct, 2021

自组合对抗训练提高鲁棒性

本文提出了一种简单而强大的自我整合对抗训练方法 (SEAT)，通过在训练数据池中加入对抗样本来提高目标模型的鲁棒性，并通过历史模型的权重平均值产生一个健壮的分类器，该方法比起其他防御策略在各种对抗攻击下提高了很多的鲁棒性

Mar, 2022

共享学习：增强 Q 集成中的强化学习

通过提出 Shared Learning 框架，在 $Q$-ensemble 算法中实现了传输学习，以此达到提高深度强化学习的数据效率和加速学习过程的目的，而不需要大量数据的使用。

Sep, 2017

随机集成双 Q 学习：在没有模型的情况下快速学习

本文介绍了一种名为 REDQ 的简单模型无关算法，通过大比例使用的 Update-To-Data（UTD）比率，在连续动作深度强化学习（DRL）基准测试中实现了与当前最先进的基于模型算法相媲美，甚至更好的性能，同时使用比基于模型的方法更少的参数，并且具有更少的挂钟运行时间，是首个成功使用 UTD 比率 >> 1 的连续动作空间的模型无关 DRL 算法。

Jan, 2021

增强式关注机制用于小样本学习及其扩展

本文提出了一种利用加强学习技术对注意力机制调整的方法来生成更优选择的图像嵌入向量，从而有效提高几类学习和图像分类的性能。

Apr, 2021

LoRA-Ensemble: 自注意力网络的高效不确定性建模

我们引入了一种基于低秩调整（LoRA）的参数高效深度集成方法，即 LoRA-Ensemble，用于自注意力网络，通过在预训练的自注意力网络中共享权重并训练成员特定的低秩矩阵，我们的方法在校准方面表现出优越性，并在各种预测任务和数据集上实现了相似或更好的准确性。

May, 2024

基于深度强化学习的加密货币自动交易集成方法

我们提出了一种集成方法，以提高在高度随机的日内加密货币组合交易环境中通过深度强化学习算法训练的交易策略的泛化性能。我们采用了一种模型选择方法，对多个验证期进行评估，并提出了一种新颖的混合分布策略，以有效地集成所选模型。我们提供了关于细粒度测试期间样本外表现的分布视图，以证明策略在不断变化的市场条件下的稳健性，并定期重新训练模型以应对金融数据的非平稳性。与深度强化学习策略和被动投资策略的基准相比，我们提出的集成方法改善了样本外表现。

Jul, 2023

通过复位深度集合代理实现高效且安全的深度强化学习

通过在重置方法中引入深度集成学习，我们提出了一种新的以增强样本利用效率为目标并解决基准重置方法局限性的方法。数值结果表明，该方法在高样本利用效率和安全性方面具有明显效果。

Oct, 2023

SEERL: 高效率样本集成强化学习

本文提出了一种新的训练和模型选择框架，用于模型无关的强化学习算法，使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习，选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本，且在 Atari 2600 和 Mujoco 中表现优异。

Jan, 2020

自适应集成 Q - 学习：通过误差反馈减小估计偏差

通过测试发现 Adaptive Ensemble Q-learning（AdaEQ）集成模型在 MuJoCo 基准测试中能够提高学习性能，该模型结合了模型识别自适应控制（MIAC）来实现有效的集成尺寸自适应，并通过逼近误差表征来灵活控制集成尺寸。

Jun, 2023