Nov, 2022

在归一化流的潜空间中训练保守智能体的离线强化学习流程

TL;DR该研究的目标是通过使用 Normalizing Flows 进行深度学习,利用先前记录的数据集来训练一个采取更保守行动的策略模型,以解决离线增强学习中的外推误差和分布偏移等挑战。我们的方法在各种运动和导航任务中进行了评估,并证明了与最近提出的基于生成动作模型的算法相比在大部分数据集上的优越性。