基于模型的强化学习控制策略优化中的隐式微分技术

Jun, 2021

基于模型的强化学习控制策略优化中的隐式微分技术

Control-Oriented Model-Based Reinforcement Learning with Implicit Differentiation

Evgenii Nikishin, Romina Abachi, Rishabh Agarwal, Pierre-Luc Bacon

TL;DR本文提出了一种端到端的方法，采用隐式微分直接优化期望回报，以求克服最大似然方法在模型不匹配或表示能力有限的情况下出现的缺点。具体来说，我们将一个满足模型引导的贝尔曼最优算符的值函数视为模型参数的隐函数，并展示了如何对该函数进行微分。理论和实证实验证明了该方法在模型失配情况下相对于基于最大似然方法的优势。

Abstract

The shortcomings of maximum likelihood estimation in the context of model-based reinforcement learning have been highlighted by an increasing number of papers. When the model class is misspecified or has a limite

maximum likelihood estimation model-based reinforcement learning model misspecification end-to-end approach implicit differentiation

发现论文，激发创造

具有模型误差的连续控制强化学习

提供了一个框架，可将稳健性合并到持续控制强化学习算法中，通过学习最优策略并推导相应的鲁棒性熵正则化贝尔曼收缩算子来实现，并进一步引入了较不保守的软稳健熵正则化目标及相应贝尔曼算子，实验证明在九个领域的环境扰动及高维度的机器人控制方面，稳健和软稳健策略均优于无鲁棒性策略，并提供了多个探究实验来深入理解框架的其它特性。

Jun, 2019

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

决策和控制的深度生成模型

本论文旨在研究深度模型强化学习方法的实证不足，并提出解决方案，同时探讨现代生成建模工具箱中推理技术（包括波束搜索、分类器导向抽样和图像修复等）在强化学习问题中的有效规划策略。

Jun, 2023

模型不匹配下的强化学习

论文研究了缺失真实环境信息的强化学习问题，将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中，提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法，并通过函数逼近扩展到大规模 MDPs，证明了其收敛性，并给出了保证局部最小的随机梯度下降算法。

Jun, 2017

基于模型的方法提高强化学习效率：借助专家观察

该研究通过采用专家观察（不涉及具体专家行为信息）来改进深度强化学习模型的样本效率，并通过提出一种自动调整增强损失函数中各组成部分权重的算法，证明了该算法在多种连续控制任务中通过有效利用可用的专家观察优于其他基准模型。

Feb, 2024

基于模型的离线强化学习中的本地错误建模

我们提出了一个基于模型的离线强化学习策略性能下限，明确捕捉动力学模型误差和分布不匹配，并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择：只要动力学模型能够准确地表示给定策略访问的状态 - 操作对的动态特性，就可能近似该特定策略的值。我们在 LQR 设置下分析了我们的下限，并在一组 D4RL 任务的策略选择上展示了有竞争力的性能下限。

Jan, 2023

对比价值学习：简单离线强化学习的隐式模型

本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中，在不受奖励函数限制下，学习一个隐含的、多步骤的环境动力学模型，直接估计每个动作的价值，并在复杂的连续控制基准测试中优于先前的离线 RL 方法。

Nov, 2022

连续时间强化学习中深度残差网络的先验估计

我们的研究专注于连续时间控制问题，并提出了一种适用于所有具有半群和 Lipschitz 属性的问题的方法，可以直接分析贝尔曼最优损失的先验泛化误差。该方法的核心在于对损失函数的两个转换，并使用最大操作符的分解方法来完成转换。此分析方法不需要有界性假设，最终得到一种无维度诅咒的先验泛化误差。

Feb, 2024

模型增强的 Actor-Critic 算法：透过路径反向传播

本文介绍了一种新的基于模型的强化学习算法，通过利用学习到的模型和策略经过多个时间步长的路径导数来构建策略优化算法，同时通过学习一个演员评论家，使用终端值函数避免了通过多个时间步长的不稳定性。结果显示，该方法比现有的最先进的基于模型的算法在样本效率上更为一致，并且与基于模型的算法达到了基于模型的算法无法达到的渐近性能，而且具有可扩展性。

May, 2020

基于模型预测控制的高效强化学习的价值估计

通过数据驱动方法，基于模型预测控制设计了一种改进的强化学习方法，该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。

Oct, 2023