离线强化学习中的样本内 Softmax

Feb, 2023

The In-Sample Softmax for Offline Reinforcement Learning

Chenjun Xiao, Han Wang, Yangchen Pan, Adam White, Martha White

TL;DR研究表明，在强化学习中，使用数据集中的动作来逼近 softmax 比逼近 max 更为简单，并提出基于此的在线学习算法 In-Sample Actor-Critic，该算法表现良好且适合微调。

Abstract

reinforcement learning (RL) agents can leverage batches of previously collected data to extract a reasonable control policy. An emerging issue in this offline rl setting, however, is that the bootstrapping update

reinforcement learning offline rl action-coverage in-sample softmax actor-critic

发现论文，激发创造

离线强化学习中的样本内策略迭代

本文提出了一种新的算法，采用样本内策略迭代技术，通过在最小化数据收集策略的偏差的同时优化控制策略，可以显著提高离线强化学习中行为规则方法的性能，从而实现对以前收集的数据的有效控制。最后，基于 D4RL 基准测试的实验结果表明，该算法在大多数任务上优于以前的最先进方法。

Jun, 2023

使用 Softmax 策略梯度的冷启动强化学习

本文提出了一种基于 softmax 价值函数的强化学习方法，它不需要 warm-start 和样本方差的降低，结合了 policy-gradient 方法和最大似然方法的优点，用于训练结构化输出预测问题的序列生成模型，经实验证明，在文本自动摘要和图像字幕生成任务上性能良好。

Sep, 2017

强化学习中的另一种 Softmax 算子

研究发现 Boltzmann softmax 运算符在顺序决策制定中容易出现异常，在此基础上，提出了一种可微分的 softmax 运算符，并引入了一种基于新算子的 SARSA 算法，计算出具有状态相关温度参数的 Boltzmann 策略，该算法具有收敛性和实用性。

Dec, 2016

状态分布不匹配下 Softmax 离策略演员 - 评论家的全局最优性和有限样本分析

本文研究离线策略演员 - 评论家算法的全局最优性和收敛速度，通过使用近似和随机更新步骤，避免了稀疏性带来的问题，并且在文中基于均匀收缩性质，去掉相关分析的限制条件。

Nov, 2021

AWAC: 利用非在线数据集加速在线强化学习

本文介绍一种可在实际机器人控制中应用的，将过往数据和在线学习相结合的策略，使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。

Jun, 2020

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法，该算法通过离策略更新和稳定的随机演员 - 评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023

模型基节流离线强化学习的样本复杂度研究

本文提出了一种无需进一步探索的离线强化学习方法，通过精心设计的模型实现了最优的样本复杂度，适合处理数据分布转移和数据覆盖范围受限的情况。

Apr, 2022

增加覆盖分布的离线强化学习

本文研究在函数逼近的情况下，从已有数据集合学习最优策略的离线强化学习问题。研究发现，本文提出的一种简单基于边缘重要采样的算法，可以在数据集合的覆盖率不完整、函数类弱可学习的条件下，通过附加覆盖分布的先验知识来实现理论上的有限次样本保证，同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。

May, 2023

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022