强化学习中策略优化的 Bootstrap 优势估计

ICMLOct, 2022

强化学习中策略优化的 Bootstrap 优势估计

Bootstrap Advantage Estimation for Policy Optimization in Reinforcement Learning

Md Masudur Rahman, Yexiang Xue

TL;DR本文提出了一种基于数据增强的优势估计方法，该方法基于 bootstrap 方法计算优势估计，并用于学习和更新策略和价值函数，有效地提高了累积奖励和未知环境的测试性能。

Abstract

This paper proposes an advantage estimation approach based on data augmentation for policy optimization. Unlike using data augmentation on the input to learn value and policy function as existing methods use, our

data augmentation policy optimization bootstrap advantage estimation deep reinforcement learning empirical study

发现论文，激发创造

部分优势估计器用于近端策略优化

研究如何改善不完整轨迹下 GAE 方法估计价值函数时的偏差问题，提出使用 GAE 方法的一部分来计算更新，称之为 “partial GAE approach”，在实验证明该方法在两个环境中都得到更好的结果。

Jan, 2023

深度强化学习中的自动数据增强以实现泛化能力

本文通过比较三种方法，探究如何寻找适当的数据增强方式，并结合两个新的正则化项，以理论上的方式为某些 actor-critic 算法的数据增广提供支持，最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了～40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外，我们还展示了我们的代理学习出更能适应环境变化的策略和表示，包括不保留背景信息的变化。

Jun, 2020

使用广义优势估计进行高维连续控制

本文探讨了如何使用深度神经网络和政策梯度方法，通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题，取得了在高难度 3D 运动任务中显著的实证结果。

Jun, 2015

离线策略评估中的统计自举法用于不确定性估计

本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力，并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。

Jul, 2020

基于种群的数据扩充：高效学习数据扩充策略

本文提出一种新的数据增强算法 ——Population Based Augmentation (PBA)—— 来生成非静态的增强策略日程表，相比于目前最先进的方法 AutoAugment，PBA 在 CIFAR-10、CIFAR-100 和 SVHN 数据集上耗费的总计算资源少三个数量级，但性能相当。在 CIFAR-10 数据集上，我们实现了 1.46% 的平均测试误差，稍微优于当前的最先进水平。

May, 2019

通过引导误差减少稳定离轨策略 Q 学习

该研究针对离线策略评估的弱点，探讨了如何通过约束动作选择减少 Bellman backup 带来的 bootstrapping error，提出了一种名为 BEAR 的实用算法，在不同的离线策略分布上都表现出较强的鲁棒性。

Jun, 2019

正则化行为价值估计

本文提出一种基于离线强化学习的新方法 Regularized Behavior Value Estimation (R-BVE)，用于解决离线学习中过度估计值所导致的错误问题，该方法在 RL Unplugged ATARI 数据集以及其他数据集上取得了 state-of-the-art 的表现。

Mar, 2021

数据增强优化的元方法

本文提出了一种优化图像识别模型和数据增强策略的方法，使用梯度下降同时优化两者，通过使用 Neumann 级数逼近来近似策略梯度，以实现高效可扩展的训练，以提高各种图像分类任务的性能。

Jun, 2020

贝叶斯数据增强方法用于深度模型学习

提出了一种基于贝叶斯公式，利用广义蒙特卡洛期望最大化算法和生成对抗网络的方法，能更好地生成新的标注训练样本，并在 MNIST，CIFAR-10 和 CIFAR-100 的数据集中取得了优于现有数据增强方法和 GAN 模型的分类结果。

Oct, 2017

有效地结合值预测和特征预测的广义 Bootstrap 目标方法

本文提出了一种新的更新价值函数的方法 ——η 回报混合，其将 TD 方法和 SF 方法相结合，并在表格和非线性函数逼近上进行了实验，结果表明该方法具有更高的效率和控制性能。

Jan, 2022