ReRoGCRL：基于表示的目标条件强化学习中的鲁棒性

AAAIDec, 2023

ReRoGCRL：基于表示的目标条件强化学习中的鲁棒性

ReRoGCRL: Representation-based Robustness in Goal-Conditioned Reinforcement Learning

Xiangyu Yin, Sihao Wu, Jiaxu Liu, Meng Fang, Xingyu Zhao...

TL;DR我们提出了一种新颖的攻击方法和防御机制，分别是半对比表示攻击和对抗性表示策略，用于增强目标导向强化学习算法的对抗鲁棒性。

Abstract

While goal-conditioned reinforcement learning (GCRL) has gained attention, its algorithmic robustness, particularly against adversarial perturbat

goal-conditioned reinforcement learning algorithmic robustness adversarial perturbations semi-contrastive representation attack adversarial representation tactics

发现论文，激发创造

对比学习作为目标条件强化学习

本文提出了基于对比学习的强化学习算法，通过学习动作标记的轨迹对比学习来直接获得好的表示，并成功地将其应用于目标条件 RL 任务。在一系列任务中，对比 RL 方法表现更好，且不需要使用数据增强或辅助目标。

Jun, 2022

基于解离式可达性规划的目标驱动强化学习

我们提出了一种基于目标条件的强化学习算法，结合了解缠绕的可达性规划（REPlan），用于解决时间延展任务，在模拟和真实世界任务中，REPlan 显著优于之前最先进的方法。

Jul, 2023

离线目标驱动强化学习在安全关键任务中的应用与恢复策略

离线目标条件强化学习旨在通过来自离线数据集的稀疏奖励解决目标达成任务。我们研究了受约束离线目标条件强化学习问题，并提出了一种名为 Recovery-based Supervised Learning (RbSL) 的新方法来完成安全关键任务与多个目标。在机器人获取环境中进行了方法性能和实用性验证，结果表明 RbSL 方法在很大程度上优于现有的最先进方法。

Mar, 2024

可证实的鲁棒图对比学习

在本文中，我们开发了第一个能够确定性地提高图对比学习（Graph Contrastive Learning，GCL）鲁棒性的框架。我们提出了一个统一的评估和认证 GCL 鲁棒性的标准，并引入了一种新的技术 RES（Randomized Edgedrop Smoothing）来确保任何 GCL 模型的鲁棒性，并能够在下游任务中被可靠地保持。此外，我们还提出了一种有效的培训方法来提高 GCL 的鲁棒性。在真实世界的数据集上进行的大量实验证明了我们提出的方法在提供有效的可证鲁棒性和提高任何 GCL 模型的鲁棒性方面的有效性。RES 的源代码可在此 https URL 获得。

Oct, 2023

图形对比学习方法的对抗鲁棒性

通过对图结构的适应性敌对攻击评估节点和图分类任务，本研究介绍了一个全面的 GCL 模型鲁棒性评估协议，旨在探索 GCL 方法的鲁棒性，并为潜在的未来研究方向开辟新途径。

Nov, 2023

目标导向强化学习：问题与解决方案

本文综述了目标条件强化学习的挑战、算法、目标表示以及未来研究方向。

Jan, 2022

具有对抗攻击的强化学习做法

本文提出了针对强化学习的对抗攻击，并通过这些攻击提高了深度强化学习算法对参数不确定性的鲁棒性。我们展示了即使是一个简单的攻击也能成功降低深度强化学习算法的性能，并进一步使用工程丢失函数的梯度信息改进了攻击方法，导致性能进一步降低。这些攻击方法被用于训练中，以改善 RL 控制框架的鲁棒性。我们展示了在 Cart-pole，Mountain Car，Hopper 和 Half Cheetah 等 RL 基准测试环境中，对 DRL 算法进行对抗训练可以显著提高其对参数变化的鲁棒性。

Dec, 2017

偏差弹性多步离策略目标条件强化学习

通过解决多步 GCRL 中的偏差问题，本文提出了一种方法来提高学习效率，并在实证研究中证明该方法在十步学习场景下能够优于基线和多步 GCRL 的几个先进模型。

Nov, 2023

抗混淆影响的稳健因果图表示学习

本文提出一种强化图表示学习模型鲁棒性的方法 - Robust Causal Graph Representation Learning（RCGRL），通过生成工具变量来消除图中干扰因素和混淆变量，同时保证了理论上的有效性，并在多个基准数据集上进行了实验，证明了该模型的预测性能和泛化能力均优于现有方法。

Aug, 2022

GOPlan: 使用学习模型通过规划进行目标条件下离线强化学习

提出了一种新的基于模型的两阶段框架，Goal-conditioned Offline Planning（GOPlan），通过预训练一个能够捕捉多模式行为分布的先验策略，并利用规划生成假想轨迹进行微调策略，实现了离线多目标操作任务上最先进的性能。

Oct, 2023