训练韧性 Q - 网络抵御观测干扰
本文研究了在价值为基础的强化学习方法中广泛存在的灾难性干扰现象,提供了一种新的干扰度量方法,在多种网络架构下系统评估了这种度量与控制性能不稳定性的相关性,并提出了一类名为 “在线感知” 的算法来减少干扰,并表明它们在多个经典的控制环境中可以提高稳定性和性能。
Jul, 2023
本文介绍了 DPIQN 和 DRPIQN,这两个深度增强学习网络通过使用从协作者和对手的原始观察中推断出的策略特征来改进对可控制代理的 Q 值预测,适用于具有不同策略的协作者、对手和可控制代理的多智能体系统中。作者通过 1 对 1 和 2 对 2 的经典足球游戏等多种多智能体场景中的实验证明了这两个模型的高性能。
Dec, 2017
在线深度强化学习控制(ODRLC)是一种可替代传统方法的方法,它通过智能代理与实际环境直接交互并从这些在线交互中学习最优控制策略。我们提出了一种干预辅助框架,结合了神经网络的学习能力和传统控制策略的稳定性,以解决随机队列网络中无界状态空间的挑战。通过实验证明,我们的提出算法优于传统控制方法和之前的 ODRLC 算法。
Apr, 2024
本文调查了深度强化学习网络在训练时间和测试时间的对抗攻击中的鲁棒性,结果显示在非连续的训练时间攻击中,通过调整策略,Deep Q-Network (DQN) 代理能够恢复和适应对抗条件,相比较 ε- 贪婪和参数空间噪声探索方法,本文还对鲁棒性和抗干扰性进行了比较。
Dec, 2017
本文研究发现,基于深度强化学习的分类器同样存在容易受到篡改输入的对抗样本攻击,这导致了针对基于 DQNs 的策略诱导式攻击的出现。同时,我们验证了对抗性样本的可迁移性,提出了一种利用这种可迁移性的攻击机制,并通过对游戏学习场景的实验研究证明了其功效和影响。
Jan, 2017
本文提出了一种基于 Transformer 和自注意力机制的全新架构 Deep Transformer Q-Networks(DTQN),可用于处理强化学习中的局部可见性、记忆和训练困难等问题,实验结果表明该模型相较于传统的循环神经网络方式在处理局部可视化任务时更加快速和稳定。
Jun, 2022
通过强化学习中的 Robust Student-DQN 系统可以实现在线强健性训练,使 Q 网络能够在竞争性表现的同时成为强大敌手攻击下的鲁棒代理。该系统可以与最先进的敌对训练和可证明的强健性训练相结合,从而获得一个训练和评估过程中抵御强烈攻击的代理。
Nov, 2019
本研究探讨如何将线下收集的观测数据纳入在线学习过程,提高深度强化学习在自动驾驶和个性化医疗等关键场景中的应用可行性,提出了去除混杂因素的乐观值迭代算法,并证明当混杂的观测数据更具信息量时,该算法能够比纯在线学习方法获得更小的后悔系数,是因果强化学习领域的重要一步。
Jun, 2020
通过深度强化学习方法,利用软、硬注意力机制的扩展 DQN 算法,以 Atari 游戏为测试模型,表明其性能优于 DQN,并且内置的注意机制使得可以直接监控训练过程。
Dec, 2015