深度多智能体强化学习中的负向更新间隔

Sep, 2018

深度多智能体强化学习中的负向更新间隔

Negative Update Intervals in Deep Multi-Agent Reinforcement Learning

Gregory Palmer, Rahul Savani, Karl Tuyls

TL;DR这篇论文研究了多智能体强化学习中的路径效应问题，发现现有的弱化和反应性方法在处理复杂领域的多个病理时无法保持一致，提出了一种名为 Negative Update Intervals-DDQN 的新算法，能够在大型观测空间和具有多种病理的环境中，始终朝着最优的联合策略学习。

Abstract

In multi-agent reinforcement learning (MA-RL), independent cooperative learners must overcome a number of pathologies to learn optimal joint policies. Addressing one pathology often leaves approaches vulnerable t

multi-agent reinforcement learning pathologies leniency negative update intervals-ddqn joint-policies

发现论文，激发创造

宽松的多智能体深度强化学习

本研究将宽容度应用于多智能体深度强化学习中，通过控制弱化负面策略更新所用的温度值，引入了乐观主义来更新价值函数，从而促进了协作，并在长期规划进程中很可能收敛到最优策略。实证评估表明，相比于标准和调度 HDQN 代理，LDQN 代理更有可能在具有随机奖励的任务中收敛到最优策略。

Jul, 2017

使深度 Q 学习方法对时间离散化具有鲁棒性

本研究证明了 Q-learning 不存在于连续时间中，指出时间离散化的敏感性是 Deep Reinforcement Learning 具有鲁棒性的关键因素，提出了一种无模型的强化学习算法，能够在不同的时间离散化下稳健地工作。

Jan, 2019

深度强化学习：不死之身的秘诀

本文调查了深度强化学习网络在训练时间和测试时间的对抗攻击中的鲁棒性，结果显示在非连续的训练时间攻击中，通过调整策略，Deep Q-Network (DQN) 代理能够恢复和适应对抗条件，相比较 ε- 贪婪和参数空间噪声探索方法，本文还对鲁棒性和抗干扰性进行了比较。

Dec, 2017

训练韧性 Q - 网络抵御观测干扰

本文提出了一种基于因果推断的 DQN 算法 ——CIQ，用于提高在故障干扰下深度强化学习（DRL）的鲁棒性和性能。实验结果表明，CIQ 算法在多个 DQN 环境中能够获得更高的性能和更强的抗干扰能力。

Feb, 2021

实用鲁棒强化学习：邻域不确定性集和双代理算法

介绍了一种新的不确定性集合并基于此提出了一种名为 ARQ-Learning 的鲁棒强化学习方法，同时还提出一种能高效解决 ARQ-Learning 在大规模或连续状态空间下的问题的技术，最终将其应用于各种存在模型不确定性的强化学习应用中。

May, 2023

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

基于滞后效应的强化学习：通过混合控制增强强化学习控制策略的稳健性

提出了一种名为 Hysteresis-Based RL（HyRL）的混合算法，通过在现有 RL 算法中增加滞后开关和两个学习阶段提高了算法的稳健性，并在 PPO 和 DQN 无法处理的两个问题中说明了其性质。

Apr, 2022

具有离散 - 连续混合动作空间的深度多智体强化学习

本篇论文针对协同多智能体问题中的 “离散 - 连续混合动作空间” 这一实际难题，提出了两个新算法：Deep Multi-Agent Parameterized Q-Networks（Deep MAPQN）和 Deep Multi-Agent Hierarchical Hybrid Q-Networks（Deep MAHHQN）。中心化训练，分散执行范例下的实证结果显示，Deep MAPQN 和 Deep MAHHQN 均更为有效，且远胜于现有独立深度参数化 Q 学习方法。

Mar, 2019

多智能体系统的深度策略推断 Q 网络

本文介绍了 DPIQN 和 DRPIQN，这两个深度增强学习网络通过使用从协作者和对手的原始观察中推断出的策略特征来改进对可控制代理的 Q 值预测，适用于具有不同策略的协作者、对手和可控制代理的多智能体系统中。作者通过 1 对 1 和 2 对 2 的经典足球游戏等多种多智能体场景中的实验证明了这两个模型的高性能。

Dec, 2017

面对环境不确定性的高样本效率鲁棒多智能体强化学习

为了解决强化学习中的模拟到实际之间的差距，学习策略必须对环境不确定性保持鲁棒性。本研究着重于多智能体环境中学习分布鲁棒马尔可夫博弈，提出基于模型的 DRNVI 算法来学习各种博弈论平衡的鲁棒变种，同时建立了信息论下界以确认 DRNVI 的近乎最优样本复杂度。

Apr, 2024