目标导向的迁移学习的明确价值预训练

Dec, 2023

目标导向的迁移学习的明确价值预训练

Value Explicit Pretraining for Goal-Based Transfer Learning

Kiran Lekkala, Henghui Bao, Sumedh Sontakke, Laurent Itti

TL;DR提出了一种方法，可以通过基于价值函数估计的一系列观察结果来学习任务无关的表示，其中最后一帧对应于一个目标状态。这些表示将学习通过与目标状态的时序距离相关的不同任务之间的状态，无论外观变化和动力学如何。这种方法可以用于将学习的策略 / 技能转移到未见过的相关任务。

Abstract

We propose a method that allows for learning task-agnostic representations based on value function estimates from a sequence of observatio

learning task-agnostic representations value function estimates temporal distance transfer learnt policies

发现论文，激发创造

从像素中发现基于物体的广义值函数

本文提出了一种基于对象的方法，试图从对象中发现有意义的特征，将其转化为具有时间相关性的 “指导” 函数，并利用随后学习到的一般价值函数进行控制，并且通过定性分析表明，学习到的表示不仅可解释而且围绕着任务之间不变的对象，从而促进了快速适应。

Apr, 2023

通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用

该研究考虑了两种不同的学习方式：模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法，并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题，在模仿学习方面也达到了标准基准任务的最新样本效率。

Feb, 2020

VIP：通过价值内隐预训练实现通用视觉奖励和表示

本研究提出了一种称为 VIP 的表示自学习方法，通过自监督目标条件强化学习的方式从未标注的人类视频中生成稠密的，可平滑的奖励函数，克服机器人数据获取上的困难，并在实验中表现出优异的表现。

Sep, 2022

从视觉观察中学习可操作的表征

本文研究了使用自我监督学习来学习连续控制任务的对抗学习方法。通过将多个帧联合嵌入到嵌入空间中，我们扩展了时间对比网络（TCN），从而能够更准确地编码位置和速度属性。我们证明了这种方法在强化学习任务中有效，可以通过仅使用学习到的嵌入作为输入，使用像 Proximal Policy Optimization（PPO）这样的算法来学习连续控制策略。

Aug, 2018

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

学习用于规划的抽象且可迁移的表示

该论文提出了一个框架来自我学习代理环境的状态抽象，这些抽象是任务无关的可重用的，从而显著提高了学习效率和代理任务解决的能力。

May, 2022

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

世界价值函数：学习和规划的知识表示

本研究提出了一种名为 WVF 的目标导向通用价值函数，旨在将任务解决方法与该代理人环境下的其他目标达成任务相结合，证明了这一方法可以提高学习和规划效率。

Jun, 2022

强化学习最优表示的几何视角

通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Jan, 2019

利用离线预训练状态转向转换器从视觉观察中学习

本文提出了一种基于视觉观测的学习方法，使用两阶段的 State-to-Go (STG) Transformer 训练出内在奖励进行强化学习，实现了利用仅有视频数据解决视觉强化学习任务的潜力，并在 Atari 和 Minecraft 等数据集上表现出了比基线更好的性能。

Jun, 2023