时序差分模型：无模型深度强化学习用于模型控制

ICLRFeb, 2018

时序差分模型：无模型深度强化学习用于模型控制

Temporal Difference Models: Model-Free Deep RL for Model-Based Control

Vitchyr Pong, Shixiang Gu, Murtaza Dalal, Sergey Levine

TL;DR介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数，称为时间差分模型，它可以利用状态转移的丰富信息来非常高效地学习，同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明，在一系列连续控制任务中，TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。

Abstract

model-free reinforcement learning (RL) is a powerful, general tool for learning complex behaviors. However, its sample efficiency is often impractically large for solving challenging real-world problems, even wit

model-free reinforcement learning sample efficiency state transition tuples temporal difference models model-based control

发现论文，激发创造

基于时序差分学习的模型预测控制

本文提出了一种称之为 TD-MPC 的新型控制方法，该方法结合了基于模型和基于模型无关的方法。研究结果表明，该方法能够在 DMControl 和 Meta-World 上取得更好的样本效率和渐进性能。

Mar, 2022

TD 或非 TD：深度强化学习中时间差分作用的分析

本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估，并发现在特定的因素下，如奖励稀疏、奖励延迟和任务的感知复杂性等，有限时的 MC 方法不亚于 TD，这使得 MC 成为深度强化学习中可替代 TD 的选择。

Jun, 2018

连续强化学习中的预测与控制

本文提出了将值函数分解为两个组成部分的方法，分别在不同的时间尺度上更新，其中永久性值函数持有随时间持久存在的一般知识，而短暂性值函数允许快速适应新情况，理论结果表明这种方法非常适用于连续学习，并与神经科学中的互补学习系统（CLS）理论建立了联系，实证结果表明该方法在预测和控制问题上显著提高性能。

Dec, 2023

简化的时间一致增强学习

本文展示了一种简单的表示学习方法：只依赖于通过潜在时间一致性训练的潜在动态模型，既可以在计划类的强化学习中使用，也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法，并在样本效率上达到了模型类方法的水平。

Jun, 2023

对比例子为基础的控制

基于示例的学习方法提出了一种离线控制方法，该方法学习了一个隐式模型来表示多步转变的 Q 值，并在状态和图像离线控制任务中优于基准方法并展现了对数据集规模的提升和鲁棒性。

Jul, 2023

Taylor TD-learning

介绍了一种基于模型的强化学习框架 Taylor TD，通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题，并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。

Feb, 2023

在强化学习中学习稀疏表示

本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用，使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。

Sep, 2019

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

监督学习的 MRP 公式化：广义时间差异学习模型

该研究提出了一种将数据点视为相互关联的观点，并使用马尔科夫奖励过程（MRP）进行数据建模的统计学习方法。通过引入广义的时序差分（TD）学习算法来重塑传统的有监督学习问题，并与普通最小二乘法（OLS）的解决方案建立联系。同时，该研究还证明了在特定条件下，尤其是在噪声相关时，TD 的解决方案比 OLS 更有效。在线性函数逼近下，该研究建立了广义 TD 算法的收敛性，并通过实证研究验证了理论结果，展示了该算法在各种数据集及任务（如回归和深度学习的图像分类）上的实用性。

Apr, 2024

用于无模型强化学习的多状态 TD 目标

提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法，该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合，实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。

May, 2024