优势加权回归：简单且可扩展的离线策略强化学习

Oct, 2019

优势加权回归：简单且可扩展的离线策略强化学习

Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning

Xue Bin Peng, Aviral Kumar, Grace Zhang, Sergey Levine

TL;DR该论文旨在开发一种简单且可扩展的增强学习算法，使用标准的监督学习方法作为子程序。提出的 AWR 方法只需几行代码即可实现，能够适应连续和离散行动，其性能与许多最先进的 RL 算法相当，无需其他环境交互即可从纯静态数据集中获取更有效的策略。

Abstract

In this paper, we aim to develop a simple and scalable reinforcement learning algorithm that uses standard supervised learning methods as subroutines. Our goal is an algorithm that utilizes only simple and conver

reinforcement learning supervised learning maximum likelihood loss functions off-policy data awr

发现论文，激发创造

离线强化学习的优势感知策略优化

离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互，以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的 Advantage-Aware Policy Optimization (A2PO) 方法，用于在混合质量数据集下明确构建基于优势感知的策略约束进行离线学习。通过使用条件变分自编码器 (CVAE) 来解开错综复杂的行为策略的动作分布，并将所有训练数据的优势值建模为条件变量，A2PO 可以遵循这种解开的行为分布约束来优化面向高优势值的策略。在 D4RL 基准测试中，对单一质量和混合质量的数据集进行的广泛实验表明，A2PO 的结果优于现有的最先进的对手。我们的代码将公开发布。

Mar, 2024

基于优势权重的离线元强化学习

本文介绍了离线元强化学习设置，并提出了一个能在该设置中表现优异的算法。我们提出了用于内外循环的简单监督回归目标的基于优化的元学习算法，称为 Meta-Actor Critic with Advantage Weighting (MACAW)。在常见的元 RL 基准的离线变量上，我们通过实验发现该方法能够实现完全离线元强化学习，并且比之前的方法有显着的提高。

Aug, 2020

AWR: 自适应权重回归用于三维手势估计

本文提出了一种自适应加权回归方法，并且结合密集表示和联合监督学习，实现端到端训练和提高模型的准确度和鲁棒性，在四个公开数据集上的表现比其他最先进方法更好。

Jul, 2020

离线强化学习中的潜变量优势加权策略优化

本文提出了一种名为 LAPO（latent-variable advantage-weighted policy optimization）的方法，通过使用潜变量的策略来解决离线数据集分布偏移问题，取得了在多项任务中超越同类方法的显著性能提升。

Mar, 2022

AWAC: 利用非在线数据集加速在线强化学习

本文介绍一种可在实际机器人控制中应用的，将过往数据和在线学习相结合的策略，使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。

Jun, 2020

基于优势加权信息最大化的分级强化学习

本研究提出了一种基于相互信息最大化学习层次策略潜变量的 HRL 方法，用于优化连续控制任务中的强化学习性能，并介绍了优势加权重要性采样和确定性策略梯度方法，以实现选项策略选择和优化。实验结果表明，该方法可以学习多样化的选项并增强连续控制任务中强化学习的性能。

Jan, 2019

WARP: 关于加权平均奖励策略的好处

使用人类反馈进行强化学习的 WARP 方法，在保持预训练知识的同时优化奖励函数，经过迭代逐渐改进 KL - 奖励的权衡，提升了 GEMMA 策略的质量和对齐度。

Jun, 2024

一种基于优势的强化学习策略迁移算法及其可迁移性度量

本文提出了一种基于收益的策略转移算法 APT-RL，用于在固定领域环境中的强化学习，通过使用 “优势” 作为正则项，避免了启发式选择算法设计，并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架，实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法，并且比从零开始学习更加高效。

Nov, 2023

安全强化学习作为 Wasserstein 变分推理：可解释性的形式方法

本研究提出了一种新颖的自适应 Wasserstein 变分优化（AWaVO）方法，利用正式方法提供奖励设计、训练收敛的透明度和顺序决策的概率解释，解决了序列决策问题中奖励函数的解释和相应最优策略的挑战。

Jul, 2023

OLR-WA 在线回归与加权平均

机器学习中的在线学习方法 OLR-WA，通过结合新旧数据建立模型来解决数据量庞大和数据变化的问题，并通过用户定义的权重来实现对结果的偏好。与静态模型相比，OLR-WA 在一致数据上表现相似，在变化数据上，则可根据用户需求调整适应速度或抵抗变化。

Jul, 2023