Oct, 2023

面向多样化数据损坏的鲁棒离线强化学习

TL;DR离线强化学习中,数据损坏对性能的影响是一个重要问题,本研究通过实证和理论分析发现,隐式 Q 学习 (IQL) 表现出很强的抗数据损坏能力,其监督策略学习机制是关键因素之一。为解决 Q 函数在动力学方面受到的影响,研究引入鲁棒统计学和 Huber 损失函数来处理重尾数据,并利用分位数估计器平衡受损数据和学习稳定性,提出了一个更加鲁棒的离线强化学习方法,命名为鲁棒 IQL (RIQL)。大量实验表明,在各种数据损坏情况下,RIQL 表现出极高的鲁棒性能。