在强化学习中学习稀疏表示

Sep, 2019

Learning sparse representations in reinforcement learning

Jacob Rafati, David C. Noelle

TL;DR本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用，使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。

Abstract

reinforcement learning (RL) algorithms allow artificial agents to improve their selection of actions to increase rewarding experiences in their environments. Temporal Difference (TD) Learning -- a model-free RL method -- is a leading account of the midbrain dopamine system and the basa

reinforcement learning temporal difference learning policy function internal representations sparse distributed representations

发现论文，激发创造

辨识时差学习

提出了一种新型的时序差异学习算法（DTD），通过引入灵活的权重分配函数，能够提高值估计并在不同情境中加速学习。

Oct, 2023

TD-learning 下表示动态的更好理解

探讨了 TD-learning 对时间序列中状态表示的影响，特别是在环境可逆的情况下，TD-learning 可以严格减少价值近似误差，同时将其与转移矩阵的谱分解相联系，并用随机生成的奖励拟合多个值函数来辅助表征学习。

May, 2023

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

优先级时间差分学习

在 TD 学习中，提出一种重新加权状态的方法，在更新方程中考虑到其重要性和价值估计的可靠性，证明此方法在线性函数逼近下收敛，并在实验中与其他 TD 方法进行比较。

Jun, 2021

增强学习中的引导式表示学习

本文研究了强化学习中的状态表示问题，发现时序差分学习与蒙特卡罗、残差梯度学习在大部分环境的特征学习上存在差异，本文提出的新的辅助学习规则在经典环境下具有较好表现。

Jun, 2023

时序差分模型：无模型深度强化学习用于模型控制

介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数，称为时间差分模型，它可以利用状态转移的丰富信息来非常高效地学习，同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明，在一系列连续控制任务中，TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。

Feb, 2018

时间差异强化学习动力学

本研究使用统计物理学的理论，研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证，发现随机半梯度噪声导致价值误差的显著平台现象，并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。

Jul, 2023

TD 或非 TD：深度强化学习中时间差分作用的分析

本文对经典强化学习算法中的 TD 算法在深度强化学习中的优劣进行了重新评估，并发现在特定的因素下，如奖励稀疏、奖励延迟和任务的感知复杂性等，有限时的 MC 方法不亚于 TD，这使得 MC 成为深度强化学习中可替代 TD 的选择。

Jun, 2018

强化学习中的表示时间解耦以提高泛化能力

通过引入时间分离（TED）作为强化学习辅助任务，可以更好地利用序列化 RL 观察结果，学习更健壮的表示形式，从而使 RL 算法对未知环境变量的变化更快地适应。

Jul, 2022

神经科学中的强化学习简介

强化学习和神经科学之间存在紧密的联系，本论文通过回顾经典强化学习和介绍现代深度强化学习的方法，以及其在系统神经科学中的应用，阐述了这种联系。

Nov, 2023