深度强化学习的快速价值追踪

Mar, 2024

Fast Value Tracking for Deep Reinforcement Learning

Frank Shih, Faming Liang

TL;DR我们的研究利用卡尔曼滤波范式引入了一种称为 Langevinized Kalman Temporal-Difference (LKTD) 的新颖且可扩展的采样算法，用于深度强化学习。通过 LKTD 算法，我们有效地从深度神经网络参数的后验分布中抽样，而且我们证明了在温和条件下，LKTD 算法生成的后验样本收敛到一个稳定分布。这种收敛不仅使我们能够量化价值函数和模型参数相关的不确定性，而且在训练阶段中允许我们监控这些不确定性。LKTD 算法为更加强健和适应性的强化学习方法打开了道路。

Abstract

reinforcement learning (RL) tackles sequential decision-making problems by creating agents that interacts with their environment. However, existing algorithms often view these problem as static, focusing on point estimates for model parameters to maximize expected rewards, neglecting t

reinforcement learning kalman filtering sampling algorithm uncertainty quantification deep neural network parameters

发现论文，激发创造

卡尔曼时差法

介绍了一个新的近似框架，即卡尔曼时间差异（KTD）框架，用于解决强化学习中估值函数的扩展问题，并提供了解决确定性和随机性马尔可夫决策过程的 KTD 和 XKTD 算法，证明了其收敛性和比现有算法更好的性能。

Jan, 2014

可证明且实用：通过 Langevin Monte Carlo 实现强化学习中的高效探索

本文提出了一种基于 Thompson 采样的可扩展和有效的强化学习策略，通过使用 Langevin Monte Carlo 从其后验分布中直接抽取 Q 函数，该方法只需进行嘈杂的梯度下降更新即可学习 Q 函数的精确后验分布，在深度 RL 中易于部署，取得了优于或类似于 Atari57 套件上现有深度 RL 算法的结果。

May, 2023

时间差异强化学习动力学

本研究使用统计物理学的理论，研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证，发现随机半梯度噪声导致价值误差的显著平台现象，并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。

Jul, 2023

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021

通过 Langevin 动力学与对抗训练实现强化学习的鲁棒性

本研究基于随机梯度 langevin 动力学引入了一种采样视角来训练机器人学习代理，构建了一种新型、可扩展的两个玩家机器人学习算法，并在多个 MuJoCo 环境中证明了该算法相对于传统机器人学习算法更具有一般化能力。

Feb, 2020

强化学习用于具有概率满足保证的时间逻辑控制合成

本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成满足概率的最大值。

Sep, 2019

增量式截断最小二乘法

本文介绍了一种低秩 LSTD 算法，该算法能更好地平衡计算效率和采样效率，使过去的样本高效地实现对最少二乘法时间差分（LSTD）的采样复杂度，同时实现近似 LSTD 的样本复杂度。我们在模拟中给出了关于截断低秩逼近所得解的模拟界限，这表明一个偏差 - 方差折衷需要依赖秩的选择。我们证明了该算法在基准任务和高维能量分配领域的策略评估中有效地平衡了计算复杂性和采样效率。

Nov, 2015

基于深度强化学习的实时模型校准

本研究提出了一种基于强化学习的模型参数推断框架，该框架以物理模型响应跟踪为目标，利用一种约束 Lyapunov 基础的 actor-critic (CLAC) 算法，考虑了大规模和高维数据以及嘈杂的真实世界条件下的鲁棒性，实现了在两个基于物理模型的诊断测试案例中的优秀表现。

Jun, 2020

连续强化学习中的预测与控制

本文提出了将值函数分解为两个组成部分的方法，分别在不同的时间尺度上更新，其中永久性值函数持有随时间持久存在的一般知识，而短暂性值函数允许快速适应新情况，理论结果表明这种方法非常适用于连续学习，并与神经科学中的互补学习系统（CLS）理论建立了联系，实证结果表明该方法在预测和控制问题上显著提高性能。

Dec, 2023

TD 或非 TD：深度强化学习中时间差分作用的分析

本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估，并发现在特定的因素下，如奖励稀疏、奖励延迟和任务的感知复杂性等，有限时的 MC 方法不亚于 TD，这使得 MC 成为深度强化学习中可替代 TD 的选择。

Jun, 2018