深度自回归密度网络与神经集成在基于模型的离线强化学习中的比较

Feb, 2024

深度自回归密度网络与神经集成在基于模型的离线强化学习中的比较

Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning

Abdelhakim Benechehab, Albert Thomas, Balázs Kégl

TL;DR离线强化学习中，通过提供的系统转换数据进行策略优化；研究了基于模型的强化学习算法，并挖掘了模型学习的静态度量方法，以及模型错误对代理的最终性能的影响。

Abstract

We consider the problem of offline reinforcement learning where only a set of system transitions is made available for policy optimization. Following recent advances in the field, we consider a model-based reinforcement

offline reinforcement learning model-based reinforcement learning model errors ensembles autoregressive model

发现论文，激发创造

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

离线策略评估和优化的自回归动态模型

提出了一种基于自回归动力学模型的控制模型，分析了其在离线数据集 RL Unplugged 中的表现，证明其在策略优化中具有潜在应用。

Apr, 2021

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

使用概率动态模型进行少量试验的深度强化学习

本研究旨在利用基于不确定性的深度网络动态模型来提高回报函数学习算法的样本效率，并通过样本传播方法实现不确定性处理，从而解决参数化函数逼近器，如深度网络的性能下降问题，我们提出了一种名为 PETS 的新算法。与深度强化学习的先进算法进行比较，结果表明我们的方法可以在 Asymptotic Performance 上与模型自由算法匹配，并且在许多具有挑战性的基准任务中需要明显较少的样本数量（例如，在半猎豹任务中所需样本数量比 Soft Actor Critic 和 Proximal Policy Optimization 分别减少 8 倍和 125 倍）。

May, 2018

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019

基于模型的离线策略优化与对抗网络

使用对抗学习建立具有更好泛化性能的转移模型，能够更准确地量化模型不确定性，并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。

Sep, 2023

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

悲观离线强化学习的神经网络近似

利用深度强化学习和贝尔曼残差的耦合，我们在一些温和假设下，建立了悲观离线强化学习的非渐进估计误差，该结果展示了深度对抗式离线强化学习框架的显式效率，并对算法模型设计提供了指导。

Dec, 2023

少样本自回归密度估计：走向学习分布的学习

本文介绍了如何通过将神经注意力和元学习技术与自回归模型相结合，实现对少量样本实现高效密度估计，从而对于图像生成等领域有重要的应用。

Oct, 2017

在信任状态之前双重检查：基于模型的想象中的置信度感知双向离线模型

本文提出一种置信度感知的双向离线模型想象算法，使用训练好的双向动力学模型和推进策略来扩充离线数据集，以增强在线学习的推广能力。实验结果表明，该算法显著提高了现有模型无关的线下 RL 算法的性能，并与基线方法相比获得了竞争性或更好的得分。

Jun, 2022