强化学习通用化中价值与策略的解耦

Feb, 2021

强化学习通用化中价值与策略的解耦

Decoupling Value and Policy for Generalization in Reinforcement Learning

Roberta Raileanu, Rob Fergus

TL;DR提出了一种新的深度强化学习算法 IDAAC，采用不变性分离的方式，分别优化策略和价值函数，通过辅助损失使表示对环境的任务无关属性具有不变性，该算法在 Procgen 基准测试中表现出很好的泛化性能，并在 DeepMind 控制任务中超过了流行方法。

Abstract

Standard deep reinforcement learning algorithms use a shared representation for the policy and value function, especially when training directly from images. However, we argue that more information is needed to a

deep reinforcement learning shared representation value function estimation idaac invariant decoupling

发现论文，激发创造

重新思考强化学习中的值函数学习以实现泛化

本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能，并提出了一种延迟评论者策略梯度（DCPG）算法，该算法可以使用单一统一的网络架构来实现，极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。

Oct, 2022

隐式分布强化学习

研究提出了一种隐式分布型 actor-critic (IDAC) 算法，它包括一个基于两个深度生成器网络 (DGNs) 的分布型评论家和一个由灵活的策略分布支持的半隐式演员 (SIA)，可用于提高策略梯度强化学习算法的样本效率。

Jul, 2020

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023

强化学习智能体迭代设计的价值函数分解

本文介绍如何将价值分解结合到广泛类的演员 - 评论家算法中，以协助迭代代理设计过程，包括引入基于价值分解的工具和一种新的奖励影响度量方法。

Jun, 2022

多智能体价值分解的对比身份感知学习

通过对代理商的属性进行对比性学习，从而突破多代理多样性限制，增强价值分解网络的可区分性，提高合作能力

Nov, 2022

价值改进的演员评论算法

通过在策略和价值中分别应用改进算子，本研究提出了一种对演员 - 评论家（AC）框架的通用扩展，命名为 Value-Improved AC (VI-AC)，并设计了 VI-TD3 和 VI-DDPG 两个实际算法，在 Mujoco 基准测试中发现在所有环境中它们都能改进现有基准算法的性能或与其持平。

Jun, 2024

PAnDR: 通过解耦策略和环境表示从离线经验中快速适应新环境

本文介绍了一种离线训练和在线适应设置下的策略快速适应方案 PAnDR，其通过对比学习和策略恢复学习环境表示和策略表示，在线适应阶段通过梯度上升算法优化策略，在几个典型问题上的实验结果表明，PAnDR 算法可优于现有算法。

Apr, 2022

通过提升实现对抗模仿学习

通过建立加权回放缓冲区的新算法 AILBoost，该文研究了对抗性模仿学习在离策略训练中的有效性，实验证明 AILBoost 相较于 DAC 在控制器状态和像素环境中性能更佳。

Apr, 2024

鉴别器 - 演员 - 评论家：解决对抗性模仿学习中样本低效和奖励倾向的问题

使用新算法 “Discriminator-Actor-Critic”，提出解决基于 Adversarial Imitation Learning 框架的两个问题：隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略 - 环境交互采样复杂度，并且由于我们的奖励函数是设计为无偏差的，因此可以在许多问题上应用而不进行任何任务特定的调整。

Sep, 2018

价值分解的多智能体演员 - 评论家模型

在多智能体强化学习中，QMIX 使用非负函数逼近器表示联合动作价值，并在 StarCraft II 微观管理任务中取得了迄今最好的性能。然而，我们的实验表明，在某些情况下，QMIX 与 A2C 不兼容。为了在培训效率和算法性能之间获得合理的折衷，我们将价值分解扩展到与 A2C 兼容的演员临界值，并提出了一种新的演员临界值框架，即价值分解演员临界值（VDACs）。我们在 StarCraft II 微观管理任务测试平台上评估 VDACs，并证明所提出的框架改进了其他演员临界值方法的中位性能。此外，我们使用一组消融实验来确定对 VDACs 的性能做出贡献的关键因素。

Jul, 2020