Feb, 2024
预测优化框架的最佳策略学习
Learning Best-in-Class Policies for the Predict-then-Optimize Framework
TL;DR我们提出了一种新颖的决策感知替代损失函数家族,称为扰动梯度(PG)损失函数,用于预测-优化框架。这些损失函数直接近似下游决策损失,并可以使用现成的基于梯度的方法进行优化。重要的是,与现有的替代损失函数不同,我们的PG损失函数的近似误差随着样本数量的增加而消失。这意味着优化我们的替代损失函数在错配设置中渐近地产生了最佳策略,甚至在错配的设置下也是如此。这是第一个在错配设置中获得这样的结果,我们提供了数值证据,证实当基础模型发生错配且噪声不是中心对称时,我们的PG损失函数在实质上优于现有的提案。鉴于错配在实践中经常发生,尤其是当我们可能更喜欢一个更简单、更可解释的模型时,PG损失函数提供了一种新颖的、在理论上有理据的、可计算的、决策感知学习的方法。