训练韧性 Q - 网络抵御观测干扰 | BriefGPT

AAAIFeb, 2021

训练韧性 Q - 网络抵御观测干扰

Training a Resilient Q-Network against Observational Interference

Chao-Han Huck Yang, I-Te Danny Hung, Yi Ouyang, Pin-Yu Chen

TL;DR本文提出了一种基于因果推断的 DQN 算法 ——CIQ，用于提高在故障干扰下深度强化学习（DRL）的鲁棒性和性能。实验结果表明，CIQ 算法在多个 DQN 环境中能够获得更高的性能和更强的抗干扰能力。

Abstract

deep reinforcement learning (DRL) has demonstrated impressive performance in various gaming simulators and real-world applications. In practice, however, a DRL agent may receive faulty observation by abrupt interferences such as black-out, frozen-screen, and →

deep reinforcement learning resilient algorithm adversarial perturbation causal inference observational interferences

发现论文，激发创造

强化学习中干扰的测量和缓解

本文研究了在价值为基础的强化学习方法中广泛存在的灾难性干扰现象，提供了一种新的干扰度量方法，在多种网络架构下系统评估了这种度量与控制性能不稳定性的相关性，并提出了一类名为 “在线感知” 的算法来减少干扰，并表明它们在多个经典的控制环境中可以提高稳定性和性能。

Jul, 2023

多智能体系统的深度策略推断 Q 网络

本文介绍了 DPIQN 和 DRPIQN，这两个深度增强学习网络通过使用从协作者和对手的原始观察中推断出的策略特征来改进对可控制代理的 Q 值预测，适用于具有不同策略的协作者、对手和可控制代理的多智能体系统中。作者通过 1 对 1 和 2 对 2 的经典足球游戏等多种多智能体场景中的实验证明了这两个模型的高性能。

Dec, 2017

在线随机排队网络优化的干预辅助策略梯度方法：技术报告

在线深度强化学习控制（ODRLC）是一种可替代传统方法的方法，它通过智能代理与实际环境直接交互并从这些在线交互中学习最优控制策略。我们提出了一种干预辅助框架，结合了神经网络的学习能力和传统控制策略的稳定性，以解决随机队列网络中无界状态空间的挑战。通过实验证明，我们的提出算法优于传统控制方法和之前的 ODRLC 算法。

Apr, 2024

深度强化学习：不死之身的秘诀

本文调查了深度强化学习网络在训练时间和测试时间的对抗攻击中的鲁棒性，结果显示在非连续的训练时间攻击中，通过调整策略，Deep Q-Network (DQN) 代理能够恢复和适应对抗条件，相比较 ε- 贪婪和参数空间噪声探索方法，本文还对鲁棒性和抗干扰性进行了比较。

Dec, 2017

深度强化学习在策略诱导攻击中的漏洞

本文研究发现，基于深度强化学习的分类器同样存在容易受到篡改输入的对抗样本攻击，这导致了针对基于 DQNs 的策略诱导式攻击的出现。同时，我们验证了对抗性样本的可迁移性，提出了一种利用这种可迁移性的攻击机制，并通过对游戏学习场景的实验研究证明了其功效和影响。

Jan, 2017

用深度 Transformer Q 网络进行部分可观察强化学习

本文提出了一种基于 Transformer 和自注意力机制的全新架构 Deep Transformer Q-Networks（DTQN），可用于处理强化学习中的局部可见性、记忆和训练困难等问题，实验结果表明该模型相较于传统的循环神经网络方式在处理局部可视化任务时更加快速和稳定。

Jun, 2022

深度强化学习的在线稳健性训练

通过强化学习中的 Robust Student-DQN 系统可以实现在线强健性训练，使 Q 网络能够在竞争性表现的同时成为强大敌手攻击下的鲁棒代理。该系统可以与最先进的敌对训练和可证明的强健性训练相结合，从而获得一个训练和评估过程中抵御强烈攻击的代理。

Nov, 2019

失明训练 RL 智能体具有稳健性

通过引入神经网络架构和一种新颖的 n 步损失函数，我们的实现能够经受比训练数据更长的基于位置的视觉障碍，从而展现出对暂时性视盲的鲁棒性。

Dec, 2023

可证明高效的因果强化学习在混淆观察数据中

本研究探讨如何将线下收集的观测数据纳入在线学习过程，提高深度强化学习在自动驾驶和个性化医疗等关键场景中的应用可行性，提出了去除混杂因素的乐观值迭代算法，并证明当混杂的观测数据更具信息量时，该算法能够比纯在线学习方法获得更小的后悔系数，是因果强化学习领域的重要一步。

Jun, 2020

深度关注递归 Q 网络

通过深度强化学习方法，利用软、硬注意力机制的扩展 DQN 算法，以 Atari 游戏为测试模型，表明其性能优于 DQN，并且内置的注意机制使得可以直接监控训练过程。

Dec, 2015