离线策略评估和优化的自回归动态模型

ICLRApr, 2021

离线策略评估和优化的自回归动态模型

Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization

Michael R. Zhang, Tom Le Paine, Ofir Nachum, Cosmin Paduraru, George Tucker...

TL;DR提出了一种基于自回归动力学模型的控制模型，分析了其在离线数据集 RL Unplugged 中的表现，证明其在策略优化中具有潜在应用。

Abstract

Standard dynamics models for continuous control make use of feedforward computation to predict the conditional distribution of next state and reward given current state and action using a multivariate Gaussian with a diagonal covariance structure. This modeling choice assumes that different dimensions of the next state and reward are conditionally independen

autoregressive dynamics models off-policy evaluation policy optimization mujoco datasets model-based planning

发现论文，激发创造

深度自回归密度网络与神经集成在基于模型的离线强化学习中的比较

离线强化学习中，通过提供的系统转换数据进行策略优化；研究了基于模型的强化学习算法，并挖掘了模型学习的静态度量方法，以及模型错误对代理的最终性能的影响。

Feb, 2024

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

在动态环境中使用条件自回归模型进行规划

本文演示了使用条件自回归生成模型（van den Oord 等人，2016a）在离散潜在空间（van den Oord 等人，2017b）上进行 MCTS 的前向规划的方法。通过在包含不同难度级别、移动目标和障碍物的新环境中测试该方法，高质量帧生成和传统规划方法的结合几乎可以匹配我们任务的真实环境性能，这表明了该方法在动态环境中进行基于模型的规划的实用性。

Nov, 2018

连续控制深度强化学习的自回归策略

本文提出了一种自回归策略，以改善强化学习在连续控制任务中的探索效率，从而产生平稳的探索轨迹以及较高的采样效率。

Mar, 2019

超越反馈环的自回归文本生成

本文介绍了一种将潜在状态空间模型与 CRF 观察模型结合的自回归观察模型，在无条件句子生成中，与基线模型相比具有更好的性能，避免了自回归模型的一些典型失败模式。

Aug, 2019

基于模型的离线强化学习中的悲观情况调节动态信念

通过维护动态神经网络的信念分布，以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计，可以最大限度地利用静态数据集，实现基于模型的离线强化学习。

Oct, 2022

自回归 GNN-ODE GRU 模型用于网络动态

本文介绍了一种基于自回归 GNN-ODE GRU 模型（AGOG）的方法，通过对复杂系统连续动态过程的建模和预测实现了任意时间节点状态的数据驱动预测，展示了在插值重建、外推预测和正常序列预测等三个任务中的精度表现。

Nov, 2022

工业过程控制可靠的离线基于模型的优化

利用条件生成对抗网络集成的动态模型和基于信息不确定性的奖励评估函数，实现离线建模优化在工业过程控制中的精确应用。

May, 2022

基于扩散的离线强化学习中的长时程回滚动态模型

探索如何将扩散模型（DMs）的能力作为动力学模型在完全离线环境中解耦，以允许学习策略展开轨迹，并展示了 DyDiff 在离线强化学习中的有效性。

May, 2024

基于模型的离线强化学习中的本地错误建模

我们提出了一个基于模型的离线强化学习策略性能下限，明确捕捉动力学模型误差和分布不匹配，并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择：只要动力学模型能够准确地表示给定策略访问的状态 - 操作对的动态特性，就可能近似该特定策略的值。我们在 LQR 设置下分析了我们的下限，并在一组 D4RL 任务的策略选择上展示了有竞争力的性能下限。

Jan, 2023