Jul, 2023

HIQL:将潜在状态作为行动的离线目标条件强化学习

TL;DR无监督预训练成为了计算机视觉和自然语言处理的基石。强化学习中的目标条件下增强学习可以提供类似的自监督方法,以利用大量无标签(无回报)数据。本文提出了一种基于层次结构的算法,用于从离线数据中进行目标条件下的增强学习,并证明了该方法对估计值函数中的噪声具有鲁棒性,并且能够解决具有长时间跨度的任务。