跟随你的嗅觉：在强化学习中使用通用价值函数进行有向探索

Mar, 2022

跟随你的嗅觉：在强化学习中使用通用价值函数进行有向探索

Follow your Nose: Using General Value Functions for Directed Exploration in Reinforcement Learning

Durgesh Kalwar, Omkar Shelke, Somjit Nath, Hardik Meisheri, Harshad Khadilkar

TL;DR本研究探索了使用 GVF 和有向探索策略结合探索和辅助任务学习的方法来提高强化学习中的样本效率，实验表明该方法在不同大小的网格导航任务中表现出优异的性能。

Abstract

Improving sample efficiency is a key challenge in reinforcement learning, especially in environments with large state spaces and sparse rewards. In literature, this is resolved either through the use of

reinforcement learning sample efficiency exploration methods auxiliary tasks value functions

发现论文，激发创造

数据高效的通用值函数评估的自适应探索

GVFExplorer 通过使用方差估计和行为策略更新，实现了同时评估多个 GVFs 并减少环境交互的数据效率学习方法。

May, 2024

发现有用问题的辅助任务

这篇文章提出了一种基于元梯度的全局价值函数（GVFs）发现方法，从而让强化学习（RL）代理能够发现自身的问题并通过学习答案来获得未预期的有用知识和技能，在 Atari 2600 电子游戏中，这些辅助任务通过与主任务一起元学习的方式可以提高一个演员 - 评论家代理的数据效率。

Sep, 2019

使用通用价值函数学习领域支持的库存管理策略

一个使用强化学习和通用值函数的库存管理方法，通过域支持的库存补货策略实现了平衡可用性和浪费等目标，并提供了对决策的领域支持洞察。

Nov, 2023

随机数值函数的深度探索

本研究探讨了随机价值函数在强化学习中引导深度探索的使用，证明了其在合成统计上和计算效率上与常见的实用价值函数学习方法的探索的优越性，并通过计算实验证明了其有效性，并证明了在表格表示下的统计效率的遗憾界（regret bound）

Mar, 2017

基于 GAN 的内在探索，用于高效样本的强化学习

在这篇研究中，我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题，该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态，我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。

Jun, 2022

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

从像素中发现基于物体的广义值函数

本文提出了一种基于对象的方法，试图从对象中发现有意义的特征，将其转化为具有时间相关性的 “指导” 函数，并利用随后学习到的一般价值函数进行控制，并且通过定性分析表明，学习到的表示不仅可解释而且围绕着任务之间不变的对象，从而促进了快速适应。

Apr, 2023

使用通用价值函数逼近进行强化学习中的随机探索

提出了一种无模型强化学习算法，由于乐观原则和最小二乘价值迭代算法的启示，通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索，在估计乐观值函数的同时引入了一种乐观的奖励采样过程，并证明了当数值函数可由函数类 \mathcal {F} 表示时，该算法实现了最坏情况下的遗憾度量边界，并在已知的难度探索任务上进行了实证评估。

Jun, 2021

面向能适应非结构化数据的无模型强化学习算法的发展

强化学习算法在尺度递增和非结构化观测方面表现良好的方法，能够有效利用外部知识构建预测结构，并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。

Nov, 2023