强化学习最优表示的几何视角

Jan, 2019

A Geometric Perspective on Optimal Representations for Reinforcement Learning

Marc G. Bellemare, Will Dabney, Robert Dadashi, Adrien Ali Taiga, Pablo Samuel Castro...

TL;DR通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Abstract

We propose a new perspective on representation learning in reinforcement learning based on geometric properties of the space of value functions. We leverage this perspective to provide formal evidence regarding t

representation learning reinforcement learning value functions adversarial value functions auxiliary tasks

发现论文，激发创造

强化学习中的选项发现拉普拉斯框架

本文介绍了如何通过引入特征奇异目的 (intrinsic reward functions) 从学习过后的 PVFs 中隐式定义选项来解决选项发现问题，从而在强化学习中同时解决了表示学习和选项发现两大难题。

Mar, 2017

升值路径：走向更好的强化学习表征

通过对价值改善路径的整体近似，以增强价值函数逼近能力，提出了一种新的价值导向强化学习算法。通过在 Atari 2600 游戏中测试，该算法的性能得到了显著提高。

Jun, 2020

强化学习中的价值函数多面体

该研究论文探讨了有限状态动作 Markov 决策过程中价值函数空间的几何和拓扑性质，发现其形状为一个多面体，并介绍了与策略和价值函数之间的结构关系以及利用可视化方法来增强加强学习算法动态学习的理解。

Jan, 2019

利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

利用线性模型表示形式研究离线强化学习的统计学限制，提出方差感知悲观值迭代算法，重新权重贝尔曼残差以提高离线学习界限。

Mar, 2022

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022

世界价值函数：学习和规划的知识表示

本研究提出了一种名为 WVF 的目标导向通用价值函数，旨在将任务解决方法与该代理人环境下的其他目标达成任务相结合，证明了这一方法可以提高学习和规划效率。

Jun, 2022

强化学习中的张量和矩阵低秩值函数逼近

论文提出了一种基于随机低秩算法和张量拟合方法的、无模型且在线的环境中的 VF 矩阵估计算法，有效地解决了高维状态空间下基于线性或神经网络的 VF 估计方法的维度灾难问题，得到了满意的性能评估效果。

Jan, 2022

广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

本文提出一种基于一般价值函数逼近的强化学习算法，目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似，该算法将实现后悔界，为实际中使用的算法提供一个框架来证明其有效性。

May, 2020

发现有用问题的辅助任务

这篇文章提出了一种基于元梯度的全局价值函数（GVFs）发现方法，从而让强化学习（RL）代理能够发现自身的问题并通过学习答案来获得未预期的有用知识和技能，在 Atari 2600 电子游戏中，这些辅助任务通过与主任务一起元学习的方式可以提高一个演员 - 评论家代理的数据效率。

Sep, 2019

从像素中发现基于物体的广义值函数

本文提出了一种基于对象的方法，试图从对象中发现有意义的特征，将其转化为具有时间相关性的 “指导” 函数，并利用随后学习到的一般价值函数进行控制，并且通过定性分析表明，学习到的表示不仅可解释而且围绕着任务之间不变的对象，从而促进了快速适应。

Apr, 2023