手掌向上：在潜在空间中进行无监督预训练游戏

Oct, 2022

手掌向上：在潜在空间中进行无监督预训练游戏

Palm up: Playing in the Latent Manifold for Unsupervised Pretraining

Hao Liu, Tom Zahavy, Volodymyr Mnih, Satinder Singh

TL;DR本文提出了一种深度生成模型的算法，结合静态数据集和动态模型，利用无监督的强化学习探索环境，在时间信息中进行表示学习，并成功地将学习到的表示迁移到视觉和强化学习任务中。

Abstract

Large and diverse datasets have been the cornerstones of many impressive advancements in artificial intelligence. Intelligent creatures, however, learn by interacting with the environment, which changes the input sensory signals and the state of the environment. In this work, we aim to

artificial intelligence deep generative models unsupervised reinforcement learning representation learning downstream tasks

发现论文，激发创造

利用潜在空间先验的示范利用

本文提出了一种利用演示数据集通过技能学习和序列建模相结合的方法，以学习高层策略的加速方式，其中序列模型形成潜在空间先验，加速了高层策略的学习速度和最终性能。

Oct, 2022

为数据高效的强化学习预训练表示

利用未标记数据预先训练编码器，然后在少量任务特定数据上微调，通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面，该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能

Jun, 2021

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

学习无行动行动

通过从无动作演示中推断潜在动作，我们介绍了一种名为 LAPO 的方法，它可以有效地预训练深度强化学习模型，并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。

Dec, 2023

带有希尔伯特表示的基础政策

通过学习结构化表示并利用方向性移动跨越学习的潜在空间，我们提出了一种新的无监督框架，用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略，并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明，我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务，甚至经常优于针对每个场景专门设计的先前方法。

Feb, 2024

从多模态时间序列数据中学习序列潜变量模型

本论文提出了一种自监督生成建模框架，用于联合学习多模态数据的概率潜在状态表示和相应的动态，并且该方法在机器人学方面有显著的预测和表示质量改进。

Apr, 2022

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023

强化学习的潜在变量表示

本文提出了一种基于深度潜变量模型的策略学习框架，在理论上和实践中检验了潜变量模型在优化强化学习中发挥的作用，同时提出了一种计算高效的规划算法，并在多个基准测试中证明了其优越性能。

Dec, 2022

学习潜在表征以影响多智体交互

该论文提出了一种基于强化学习的框架，用于学习代理人策略的潜在表示，通过学习潜在的动态关系，以影响其他代理人，推动其向适合于协同适应的策略方向发展，该方法在多个模拟领域和现实世界的空气曲棍球比赛中表现优异。

Nov, 2020

反演动态预训练为多任务模仿学习学习良好的表征

本研究在模仿学习中评估了如何使用大型数据集进行预训练。我们提供了关于使用多任务演示和逆动力学建模的语境下进行预训练的证据，并在各种虚拟视觉操作问题中评估了这些证据。

May, 2023