Mar, 2022

无需可微分优化的决策导向学习: 学习局部优化的决策损失

TL;DR本文介绍了一种全新的决策化学习方法,通过学习任务特定的损失函数代替了传统的基于代理的优化方法,与先前的工作相比,该方法不需要手工制定基于任务的代理,性能更好且更易用。