数据高效的通用值函数评估的自适应探索

May, 2024

数据高效的通用值函数评估的自适应探索

Adaptive Exploration for Data-Efficient General Value Function Evaluations

Arushi Jain, Josiah P. Hanna, Doina Precup

TL;DRGVFExplorer 通过使用方差估计和行为策略更新，实现了同时评估多个 GVFs 并减少环境交互的数据效率学习方法。

Abstract

general value functions (GVFs) (Sutton et al, 2011) are an established way to represent predictive knowledge in reinforcement learning. Each GVF computes the expected return for a given policy, based on a unique pseudo-reward. Multiple GVFs can be estimated in parallel using

general value functions gvfexplorer off-policy learning behavior policy variance estimation

发现论文，激发创造

跟随你的嗅觉：在强化学习中使用通用价值函数进行有向探索

本研究探索了使用 GVF 和有向探索策略结合探索和辅助任务学习的方法来提高强化学习中的样本效率，实验表明该方法在不同大小的网格导航任务中表现出优异的性能。

Mar, 2022

使用通用价值函数学习领域支持的库存管理策略

一个使用强化学习和通用值函数的库存管理方法，通过域支持的库存补货策略实现了平衡可用性和浪费等目标，并提供了对决策的领域支持洞察。

Nov, 2023

现实世界中的 GVFs：在线为水处理进行预测

使用基于强化学习的预测方法研究实际饮用水处理厂，描述数据集中的挑战和使用离线数据预训练临时差异学习代理的方法，并证明实时适应预测对于实际非平稳的大容量系统至关重要。

Dec, 2023

使用条件扩散模型进行价值函数估计和控制

本研究介绍了一种新的训练算法叫做 Diffused Value Function (DVF)，该算法学习使用扩散模型的环境 - 机器人交互动态的联合多步模型，可以高效地捕获多个控制器的状态访问度量，并在具有挑战性的机器人基准测试中展示了有希望的定量和定性结果。

Jun, 2023

基于参数的值函数

本文提出了基于参数的值函数（PBVFs）的方法，它们可以在不同的策略之间进行泛化，并首次展示了如何使用 PBVF 推导出新颖的离线策略梯度定理，然后采用蒙特卡罗或时间差分方法训练 PBVF 并基于此演算出离线策略梯度（off-policy policy gradient）算法，结果表明学习到的 PBVF 能够零 - shot 学习新的超越训练阶段任何策略的好策略，另外文章也在离散和连续控制任务上进行实验，表现得与最先进的方法类似。

Jun, 2020

使用通用价值函数逼近进行强化学习中的随机探索

提出了一种无模型强化学习算法，由于乐观原则和最小二乘价值迭代算法的启示，通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索，在估计乐观值函数的同时引入了一种乐观的奖励采样过程，并证明了当数值函数可由函数类 \mathcal {F} 表示时，该算法实现了最坏情况下的遗憾度量边界，并在已知的难度探索任务上进行了实证评估。

Jun, 2021

世界价值函数：学习和规划的知识表示

本研究提出了一种名为 WVF 的目标导向通用价值函数，旨在将任务解决方法与该代理人环境下的其他目标达成任务相结合，证明了这一方法可以提高学习和规划效率。

Jun, 2022

广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

本文提出一种基于一般价值函数逼近的强化学习算法，目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似，该算法将实现后悔界，为实际中使用的算法提供一个框架来证明其有效性。

May, 2020

强化学习最优表示的几何视角

通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Jan, 2019

具有广义函数近似的考虑不确定性的无奖励探索

通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法，其中的关键思想是通过不确定性感知的内在奖励来探索环境，并通过不同样本的不确定性加权学习处理异质性不确定性，通过在 DeepMind Control Suite 的各个领域和任务上的实验结果表明，该算法优于或与现有的无监督强化学习算法的性能相当。

Jun, 2024