升值路径：走向更好的强化学习表征

AAAIJun, 2020

升值路径：走向更好的强化学习表征

The Value-Improvement Path: Towards Better Representations for Reinforcement Learning

Will Dabney, André Barreto, Mark Rowland, Robert Dadashi, John Quan...

TL;DR通过对价值改善路径的整体近似，以增强价值函数逼近能力，提出了一种新的价值导向强化学习算法。通过在 Atari 2600 游戏中测试，该算法的性能得到了显著提高。

Abstract

In value-based reinforcement learning (RL), unlike in supervised learning, the agent faces not a single, stationary, approximation problem, but a sequence of value prediction problems. Each time the policy improves, the nature of the problem changes, shifting both the distribution of s

value-based reinforcement learning sequence of value prediction problems value-improvement path representation learning auxiliary tasks

发现论文，激发创造

强化学习最优表示的几何视角

通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Jan, 2019

价值驱动的后见之明建模

本文提出了利用表征学习中的先验信息直接进行值函数预测的方法，即结合模型学习和模型自由方法的优势，确定哪些未来轨迹特征提供有用信息，从而为任务提供可操作的预测目标，加速值函数的学习。

Feb, 2020

通过学习识别少而关键的状态进行一般政策评估和改进

在深度神经网络上，使用 Parameter-Based Value Functions 和 Policy Evaluation Networks 的 Actor-Critic 框架，学习单一价值函数来评估和改进 RL 策略，并通过学习少量的探测状态和行动映射来提取关于环境的重要抽象知识。

Jul, 2022

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022

关于价值函数和智能体 - 环境边界

本文针对强化学习中函数逼近问题的不同解决方式所带来的代理 - 环境边界界定问题，通过对 Fitted Q-Iteration 算法进行一个简单且新颖的边界不变量分析，解决了价值函数的定义不唯一的问题，并讨论了相关问题，如状态重置和蒙特卡罗树搜索等。

May, 2019

基于模型预测控制的高效强化学习的价值估计

通过数据驱动方法，基于模型预测控制设计了一种改进的强化学习方法，该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。

Oct, 2023

多任务强化学习中的共享表示学习

本文探讨了多任务强化学习中一种范例，即在一个固定的环境中进行一系列任务的学习，介绍了一种共享结构模型，在状态 - 动作值空间中联合学习优化价值函数，从而提高数据效率并获得更健壮、更具潜力的可传递表征。

Mar, 2016

在动作顶点上学习表示动作价值的超图

通过结合 hypergraph networks framework 和 deep Q-networks 方法，有效提升异构空间下 action-value 估计的表现，包括 Atari 2600 游戏和物理控制基准测试等多个领域。

Oct, 2020

以表示复杂性为视角重新思考基于模型、基于策略和基于价值的强化学习

强化学习（RL）涵盖了不同的范式，包括基于模型的 RL、基于策略的 RL 和基于值的 RL，本文研究了这些 RL 范式之间表示复杂性的潜在层次结构，从表示模型、最优策略到最优值函数等不同层次之间存在着显著的表示复杂性差距。

Dec, 2023

基于模型的强化学习中的价值等价原则

本文探讨强化学习中的值等价性原则，提出基于值等价性原则的模型学习问题，证明了随着政策和函数集的扩大，价值等价模型的类别将收缩到描述环境的完美模型上，并通过实验验证了该价值等价模型学习方法的优越性及其在最大似然估计等传统模型学习算法中的实用意义，在强化学习领域常常用于模型学习的价值迭代网络、预测器等模型反映了该价值等价性原则的应用。

Nov, 2020