TD-learning 下表示动态的更好理解

May, 2023

Towards a Better Understanding of Representation Dynamics under TD-learning

Yunhao Tang, Rémi Munos

TL;DR探讨了 TD-learning 对时间序列中状态表示的影响，特别是在环境可逆的情况下，TD-learning 可以严格减少价值近似误差，同时将其与转移矩阵的谱分解相联系，并用随机生成的奖励拟合多个值函数来辅助表征学习。

Abstract

td-learning is a foundation reinforcement learning (RL) algorithm for value prediction. Critical to the accuracy of value predictions is the quality of →

td-learning reinforcement learning value prediction state representations spectral decomposition

发现论文，激发创造

在强化学习中学习稀疏表示

本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用，使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。

Sep, 2019

时间差异强化学习动力学

本研究使用统计物理学的理论，研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证，发现随机半梯度噪声导致价值误差的显著平台现象，并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。

Jul, 2023

优先级时间差分学习

在 TD 学习中，提出一种重新加权状态的方法，在更新方程中考虑到其重要性和价值估计的可靠性，证明此方法在线性函数逼近下收敛，并在实验中与其他 TD 方法进行比较。

Jun, 2021

稳定离线强化学习的表示方法

本文研究强化学习中函数逼近不稳定的问题，提出了一种基于状态表示学习的解决方案，分析 transition matrix、proto-value functions、krylov subspace 等方案的适用范围与稳定性，并通过实验验证了可以使用随机梯度下降学习这种可靠的状态表示，从而提高深度网络对强化学习的表示学习技巧。

Jul, 2020

Taylor TD-learning

介绍了一种基于模型的强化学习框架 Taylor TD，通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题，并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。

Feb, 2023

辨识时差学习

提出了一种新型的时序差异学习算法（DTD），通过引入灵活的权重分配函数，能够提高值估计并在不同情境中加速学习。

Oct, 2023

关于时序差分学习的统计优势

本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Jan, 2023

连续强化学习中的预测与控制

本文提出了将值函数分解为两个组成部分的方法，分别在不同的时间尺度上更新，其中永久性值函数持有随时间持久存在的一般知识，而短暂性值函数允许快速适应新情况，理论结果表明这种方法非常适用于连续学习，并与神经科学中的互补学习系统（CLS）理论建立了联系，实证结果表明该方法在预测和控制问题上显著提高性能。

Dec, 2023

用于无模型强化学习的多状态 TD 目标

提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法，该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合，实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。

May, 2024

理解强化学习中的自预测学习

本篇研究探讨了自预测学习的学习动态，通过对优化动态的设计，提出了双向自学习算法，并通过一系列实验验证了该算法的有效性。

Dec, 2022