随机帧丢失下的决策变换器

ICLRMar, 2023

Decision Transformer under Random Frame Dropping

Kaizhe Hu, Ray Chen Zheng, Yang Gao, Huazhe Xu

TL;DR本文提出了一种名为 “基于随机帧丢失的决策变换器” 的离线强化学习算法，可以使代理在帧丢失场景下稳健地行动，同时不需要在线交互数据，该算法通过随机掩蔽离线数据并显式地添加帧丢失的时间跨度作为输入，使用相同的离线数据集进行微调，可以在严重的帧丢失率下优于强基线，同时在常规的 MuJoCo 控制基准和 Atari 环境中具有相似的回报。该方法提供了一个稳健和可部署的解决方案，以控制在具有有限或不可靠数据的实际环境中的代理。

Abstract

Controlling agents remotely with deep reinforcement learning~(DRL) in the real world is yet to come. One crucial stepping stone is to devise RL algorithms that are robust in the face of dropped information from corrupted communication or malfunctioning sensors. Typical RL methods usual

deep reinforcement learning offline rl algorithm frame dropping decision transformer under random frame dropping robustness

发现论文，激发创造

Roll-Drop：用单参数解决观测噪声的计算

本文提出一种名为 Roll-Drop 的深度强化学习（DRL）的简单策略，通过在模拟期间使用 dropout 来考虑观察噪声，而不需要为每个状态显式地建模其分布。我们演示当将高达 25％的噪声注入观测后，成功率达到 80％，其鲁棒性比基线提高了一倍。在实际机器上部署受过训练的控制器并评估了所述的改进鲁棒性。

Apr, 2023

在线决策转换器

本文提出了基于序列建模的决策转换器（ODT）算法，该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标，以实现高效的探索和调整。实验证明，在 D4RL 基准测试中，ODT 在绝对性能方面与最先进的方法具有竞争力，在微调过程中展现出更显著的提高。

Feb, 2022

学习具有高成本特征的计算效率机器人

我们提出了一种通用的离线学习方法，其中考虑了输入特征的计算成本，通过将成本约束纳入到决策变换器的扩展中，从而在推断过程中限制其成本，使模型能够在每个时间步动态选择最佳输入特征。我们通过 D4RL 基准和类似于视频游戏中的复杂 3D 环境等多个任务展示了我们方法的有效性，并表明与传统方法相比，它能够在使用显著较少的计算资源的情况下实现类似的性能。

Aug, 2023

使用决策 Transformer 解决持续离线强化学习

通过比较决策 Transformer（DT）和基于演员 - 评论者结构与经验回放的现有方法，我们研究了连续离线强化学习（CORL）框架中的 DT，发现 DT 在学习效率、分布转移缓解和零 - shot 泛化方面具有优势，但在监督参数更新时会加剧遗忘问题，我们引入多头 DT（MH-DT）和低秩自适应 DT（LoRA-DT）以减轻 DT 的遗忘问题。在 MoJuCo 和 Meta-World 基准上的广泛实验表明，我们的方法优于现有的 CORL 基准，在增强学习能力和内存效率方面展示出卓越的性能。

Jan, 2024

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023

应对动态对抗性不确定性的网络系统防御中的深度强化学习

本文根据系统状态不确定性和攻防动态的特征，提出了一个数据驱动的 DRL 框架，学习上下文感知的防御措施，以动态适应不断变化的对抗行为，同时最大程度减少对网络系统运营的影响，在多阶段攻击和系统不确定性下，DRL 算法在积极的网络防御中具有很好的效果。

Feb, 2023

基于双规范化的联邦离线策略优化

提出了一种名为 DRPO 的离线联邦策略优化算法，通过使用双重正则化来解决离线联邦强化学习中的两级分布变化问题，实现了分布式智能决策的显著性能提升。

May, 2024

使用因果反事实推理的迁移学习在决策 Transformer 中的应用

在强化学习中，通过应用因果推理和决策变换机制，从先前的环境中收集数据并将其用于新环境中的自适应转移学习可以成功地获得最佳策略，并保留大部分收益。

Oct, 2021

一种可传递、自动调整的深度强化学习方法，用于成本效益高的网络钓鱼检测

本文研究了使用增强学习来动态选择并加权选择多个学习模型的效果，在此基础上提出了优化和校准方法，并将其应用于安全策略的迁移，结果显示该方法具有高度的鲁棒性。

Sep, 2022