Feb, 2024
带有希尔伯特表示的基础政策
Foundation Policies with Hilbert Representations
TL;DR通过学习结构化表示并利用方向性移动跨越学习的潜在空间,我们提出了一种新的无监督框架,用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略,并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明,我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务,甚至经常优于针对每个场景专门设计的先前方法。