适当价值等效性

Jun, 2021

Proper Value Equivalence

Christopher Grimm, André Barreto, Gregory Farquhar, David Silver, Satinder Singh

TL;DR本文研究模型为基础的强化学习中的价值等价原则及其在 MuZero 算法优化中的应用。

Abstract

One of the main challenges in model-based reinforcement learning (RL) is to decide which aspects of the environment should be modeled. The value-equivalence (VE) principle proposes a simple answer to this question: a model should capture the aspects of the environment that are relevant

model-based reinforcement learning value-equivalence principle bellman operators pve muzero

发现论文，激发创造

基于模型的强化学习中的价值等价原则

本文探讨强化学习中的值等价性原则，提出基于值等价性原则的模型学习问题，证明了随着政策和函数集的扩大，价值等价模型的类别将收缩到描述环境的完美模型上，并通过实验验证了该价值等价模型学习方法的优越性及其在最大似然估计等传统模型学习算法中的实用意义，在强化学习领域常常用于模型学习的价值迭代网络、预测器等模型反映了该价值等价性原则的应用。

Nov, 2020

生命周期强化学习中的可扩展和鲁棒计划的最小价值等价部分模型

本文提出了新的模型，称为 “最小价值等效部分模型”，它只对环境的相关方面进行建模。通过实验证明，基于此类模型的规划方法具有可伸缩性和鲁棒性。

Jan, 2023

VPE: 变分策略嵌入用于迁移强化学习

本文研究了如何在不同领域中转移知识和适应环境，提出了使用基于 Q 函数的方法来寻找一个可适应不同潜在变量值的主策略，使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。

Sep, 2018

强化学习最优表示的几何视角

通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Jan, 2019

基于模型的强化学习模型 —— 使用多步计划价值评估

本文提出了一种新的基于模型的强化学习算法 MPPVE（Model-based Planning Policy Learning with Multi-step Plan Value Estimation），通过引入多步计划来替换多步行动，采用多步计划价值估计来更新政策，从而更好地利用学习到的模型，实现比现有基于模型的强化学习方法更好的样本效率。

Sep, 2022

关于价值函数和智能体 - 环境边界

本文针对强化学习中函数逼近问题的不同解决方式所带来的代理 - 环境边界界定问题，通过对 Fitted Q-Iteration 算法进行一个简单且新颖的边界不变量分析，解决了价值函数的定义不唯一的问题，并讨论了相关问题，如状态重置和蒙特卡罗树搜索等。

May, 2019

强化学习的编排价值映射

本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法，具有收敛性和泛化性，并可以用于处理高度变化的奖励尺度和集成学习等任务。

Mar, 2022

针对风险感知强化学习的分布式模型等价性

本文研究的问题是如何学习用于风险敏感强化学习的模型。我们提出了通过分布强化学习引入两个新的模型等价概念，可以使我们规划任何风险度量的最优解，但我们还提出了一种实用可行的风险度量模型并展示了我们的框架可以用来增强任何模型无关的风险敏感算法。

Jul, 2023

基于模型的强化学习中 Wasserstein 和价值感知损失的等效性

在模型基于的强化学习中，学习一个生成模型是至关重要的，然而使用近似设置下的有用模型学习是具有挑战性的。最近，Farahmand 等人提出了基于价值感知的模型学习（VAML）目标，该目标在模型学习过程中捕获了价值函数的结构，而使用 Asadi 等人的工具，我们发现最小化 VAML 目标实际上等价于最小化 Wasserstein 度量标准。这种等价关系提高了我们对基于价值感知模型的理解，并且为模型基于的强化学习中的 Wasserstein 应用奠定了理论基础。

Jun, 2018

UneVEn：多智能体强化学习的通用值探索

提出一种名为 UneVEn 的新的多智能体强化学习方法，通过同时学习一组相关任务的通用后继特征的线性分解，并利用已解决的相关任务策略的政策，改善了所有智能体的联合探索过程，从而提高了它们的协调效果，并在多个应用中展示了其性能优于现有方法。

Oct, 2020