时间差分学习中，针对错误设计的奖励的终止状态的故意低估价值函数

Aug, 2023

时间差分学习中，针对错误设计的奖励的终止状态的故意低估价值函数

Intentionally-underestimated Value Function at Terminal State for Temporal-difference Learning with Mis-designed Reward

Taisuke Kobayashi

TL;DR本文提出了一种在终止后故意低估值以避免由于无意中的高估引起的学习失败的方法，并根据终止时的稳定度调整低估程度，从而防止由于故意低估引起的过度探索。通过模拟和真实机器人实验表明，所提出的方法能够稳定地获取各种任务和奖励设计的最优策略。

Abstract

robot control using reinforcement learning has become popular, but its learning process generally terminates halfway through an episode for safety and time-saving reasons. This study addresses the problem of the

robot control reinforcement learning temporal-difference learning exception handling value estimation

发现论文，激发创造

优先级时间差分学习

在 TD 学习中，提出一种重新加权状态的方法，在更新方程中考虑到其重要性和价值估计的可靠性，证明此方法在线性函数逼近下收敛，并在实验中与其他 TD 方法进行比较。

Jun, 2021

强化学习与终结者

文章探讨了外部中断对强化学习的影响，提出了 TerMDP 框架并应用于驾驶和 MinAtar 测试中，提出了一种基于动态折扣因子和置信区间的高效算法，并与多种基准方法相比较获得了显著提升

May, 2022

关于时序差分学习的统计优势

本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Jan, 2023

时间差异强化学习动力学

本研究使用统计物理学的理论，研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证，发现随机半梯度噪声导致价值误差的显著平台现象，并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。

Jul, 2023

连续强化学习中的预测与控制

本文提出了将值函数分解为两个组成部分的方法，分别在不同的时间尺度上更新，其中永久性值函数持有随时间持久存在的一般知识，而短暂性值函数允许快速适应新情况，理论结果表明这种方法非常适用于连续学习，并与神经科学中的互补学习系统（CLS）理论建立了联系，实证结果表明该方法在预测和控制问题上显著提高性能。

Dec, 2023

跨时间尺度分离价值函数

本文提出的 TD（Delta）算法是一种针对有限 horizon episodic reinforcement learning（RL）的 value function approximator，通过将长时间 horizon 的值函数划分为 components 以解决标准 TD 学习中的缺陷。

Feb, 2019

学习未规定模型的奖励函数

本研究提出了一种新颖的误差界限，用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题，并在实验中证明其在基于模型的强化学习中的有效性。

Jan, 2018

用于无模型强化学习的多状态 TD 目标

提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法，该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合，实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。

May, 2024

神经网络的时序差分学习 —— 泄漏传播问题的研究

本研究探讨用函数逼近的时序差分学习论（TD）可收敛至比蒙特卡罗回归更劣的解的问题，以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据，并论证了仅当逼近误差时，这种情况会出现。最后，我们证明了泄漏传播从 [Tsitsiklis and Van Roy, 1997] 中得出，但是这并不意味着泄漏传播会发生以及何种情况下会发生，最后，我们测试了这个问题是否可以通过更好的状态表示来缓解，并且是否可以在无奖励或特权信息的情况下进行学习。

Jul, 2018

TD-learning 下表示动态的更好理解

探讨了 TD-learning 对时间序列中状态表示的影响，特别是在环境可逆的情况下，TD-learning 可以严格减少价值近似误差，同时将其与转移矩阵的谱分解相联系，并用随机生成的奖励拟合多个值函数来辅助表征学习。

May, 2023