Jun, 2023

残差 Q - 学习:无需价值的在线和离线策略定制

TL;DR本文提出了一种名为 policy customization 的新问题设置,旨在训练一种具有先前策略特征的新策略,同时满足来自下游任务的一些额外要求。针对此问题,我们提出了一种新的框架 Residual Q-learning,可实现离线和在线政策定制,在各种环境中有效地完成任务。