通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用

Feb, 2020

通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用

Universal Value Density Estimation for Imitation Learning and Goal-Conditioned Reinforcement Learning

Yannick Schroecker, Charles Isbell

TL;DR该研究考虑了两种不同的学习方式：模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法，并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题，在模仿学习方面也达到了标准基准任务的最新样本效率。

Abstract

This work considers two distinct settings: imitation learning and goal-conditioned reinforcement learning. In either case, effective solutions require the agent to reliably reach a specified state (a goal), or se

imitation learning goal-conditioned reinforcement learning density estimation sample-efficiency stochastic domains

发现论文，激发创造

C-Learning: 通过递归分类实现目标的学习

探究了预测和控制自主智能体未来状态分布的问题，提出通过训练分类器间接地估计条件概率密度函数来解决，进而探究了基于 Q-learning 的目标条件强化学习方法的理论基础和假设，并且提出了可以预测新政策未来状态分布的算法。

Nov, 2020

使用条件扩散模型进行价值函数估计和控制

本研究介绍了一种新的训练算法叫做 Diffused Value Function (DVF)，该算法学习使用扩散模型的环境 - 机器人交互动态的联合多步模型，可以高效地捕获多个控制器的状态访问度量，并在具有挑战性的机器人基准测试中展示了有希望的定量和定性结果。

Jun, 2023

自监督学习距离函数用于目标条件强化学习

本文在使用子目标分解强化学习问题时，提出学习适当距离的方法以确定目标是否已实现，并就三种不同情境提出了解决方案，同时还提出了一个目标生成机制。

Jul, 2019

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

HIQL：将潜在状态作为行动的离线目标条件强化学习

无监督预训练成为了计算机视觉和自然语言处理的基石。强化学习中的目标条件下增强学习可以提供类似的自监督方法，以利用大量无标签（无回报）数据。本文提出了一种基于层次结构的算法，用于从离线数据中进行目标条件下的增强学习，并证明了该方法对估计值函数中的噪声具有鲁棒性，并且能够解决具有长时间跨度的任务。

Jul, 2023

通过迭代监督学习学习实现目标

本文介绍了一种强化学习算法，利用模仿学习从零开始获得目标达成策略，而不需要专家演示或价值函数，并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。

Dec, 2019

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

目标条件下的 Q 学习作为知识蒸馏

本篇论文研究了强化学习在目标条件环境下的表现，提出了一种基于知识蒸馏的 Q 值函数更新方法，可以显著提高高维度空间下的目标条件策略学习，同时在多目标学习中也可以有效应用。此外，本研究还提供了一些理论支持，表明所提出的方法只需要 O (d) 个转移数据就可以完成目标任务，相较于标准的离线算法 DDPG 的需要至少 O (d^2) 个转移数据学习一个最优策略。

Aug, 2022

无穷时间尺度下强化学习价值函数的统计推断

本文提出了一种基于序列 / 筛选法的行动 - 值状态函数（Q 函数）来推导策略的置信区间以及递归更新估计策略及其价值估计器的 SequentiAl 值评估（SAVE）方法，以构建无限视野设置下策略价值的置信区间。在移动健康研究的数据集上进行了实验，结果表明强化学习算法有助于改善患者的健康状况。

Jan, 2020

目标导向的迁移学习的明确价值预训练

提出了一种方法，可以通过基于价值函数估计的一系列观察结果来学习任务无关的表示，其中最后一帧对应于一个目标状态。这些表示将学习通过与目标状态的时序距离相关的不同任务之间的状态，无论外观变化和动力学如何。这种方法可以用于将学习的策略 / 技能转移到未见过的相关任务。

Dec, 2023