深度强化学习的辅助任务 —— 代理建模

AAAIJul, 2019

深度强化学习的辅助任务 —— 代理建模

Agent Modeling as Auxiliary Task for Deep Reinforcement Learning

Pablo Hernandez-Leal, Bilal Kartal, Matthew E. Taylor

TL;DR本文探讨了如何将演员 - 评论家（Actor-Critic）方法在深度强化学习中，尤其是异步优势演员评论家（A3C）与代理建模相结合。我们提出了两种体系结构来执行代理建模，旨在学习其他代理的策略作为辅助任务。在协作和竞争领域的实验结果表明，所提出的体系结构稳定了学习，并在学习期望报酬最佳响应时优于标准 A3C 体系结构。

Abstract

In this paper we explore how actor-critic methods in deep reinforcement learning, in particular asynchronous advantage actor-critic (A3C), can be extended with agent modeling. Inspired by recent works on represen

asynchronous advantage actor-critic agent modeling multiagent deep reinforcement learning auxiliary tasks expected rewards

发现论文，激发创造

Actor-Mimic: 深度多任务和转移强化学习

本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在 Atari 游戏上进行了测试。

Nov, 2015

多智能体强化学习的演员 - 注意力 - 评论家模型

提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Oct, 2018

在异步深度强化学习中使用蒙特卡罗树搜索作为演示器

本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP)，并提出一种新的框架，将规划算法和异步分布式深度强化学习方法相结合，相对于传统方法，提高了学习速度和收敛策略的能力。

Nov, 2018

使用竞争式强化学习进行 Atari 游戏之间的视觉迁移

该论文探讨了使用深度强化学习智能体将知识从一个环境转移到另一个环境的方法，其中使用异步优势演员 - 评论家架构来使用在 Atari 中训练的代理来将目标游戏进行泛化，并使用多个代理在视觉映射 transferred targets 的基础上训练模型，以提高性能、数据效率和稳定性。该架构的功能在 OpenAI gym 中的 Atari 游戏 Pong-v0 和 Breakout-v0 中进行了演示。

Sep, 2018

图形对象中心的演员 - 评论家算法

最近在无监督的物体中心表示学习问题和其在下游任务中的应用方面取得了重大进展。最新研究支持这样一个论点：在基于图像的物体中心强化学习任务中使用解耦的物体表示有助于策略学习。我们提出了一种新颖的物体中心强化学习算法，结合了演员 - 评论家和基于模型的方法，有效地利用这些表示。我们的方法使用转换编码器提取物体表示，并使用图神经网络来近似环境动力学。所提出的方法填补了开发用于离散或连续动作空间环境的高效物体中心世界模型的研究空白。与基于转换器架构的最先进的无模型演员 - 评论家算法和最先进的整合模型为基础的算法相比，我们的算法在视觉复杂的三维机器人环境和具有组合结构的二维环境中表现更好。

Oct, 2023

双重 A3C：在 OpenAI Gym 游戏上的深度强化学习

本文介绍了如何使用双重 A3C 算法和神经网络来最大化智能体在未知环境中的奖励，并在 OpenAI Gym Atari 2600 游戏中超越了基准。

Mar, 2023

潜在互动 A2C 用于开放多智能体系统中改进强化学习

本文介绍了一种基于编码器 - 解码器结构的潜在 IA2C 方法，其利用去中心化的训练和执行，学习隐藏状态和其他代理的动作的潜在表示，实验结果表明，潜在 IA2C 显著提高了样本效率，并在具有开放代理人口的时间上进行了评估。

May, 2023

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

多智能体强化学习的异步演员 - 评论家算法

该论文提出一种多代理演员 - 评论家方法，允许代理在异步环境中直接优化策略，以解决多代理系统中同步决策的问题，提高学习效率和性能。

Sep, 2022