Jun, 2024

自适应离线到在线强化学习的剩余学习和上下文编码

TL;DR离线强化学习通过离线数据集学习顺序行为,但实际应用中离线和在线阶段的转换动力学常常变化,所以提出了一种利用残差学习推断离线解决方案输出的动力学变化的方法,在在线微调阶段通过训练上下文编码器来学习能在当前在线学习环境中保持一致且能预测动态转换的表示,实验证明该方法适应这种动态变化,并可以以高样本利用率的方式推广到未见过的扰动。