Jun, 2023

政策导向的设计:离线策略优化的保守测试时间适应

TL;DR本文提出了 DROP 方法,通过离线学习一个 MBO 分数模型在内部级别上进行优化,在外部级别上进行优化以获得奖励最大化并通过引入行为嵌入和保守规则限制,使得 DROP 具备了测试时间自适应能力。与传统离线 RL 方法相比,DROP 取得了显著的性能提升。