Jul, 2023

评分函数梯度估计以扩大决策导向学习的适用性

TL;DR该研究通过采用分布预测和采用得分函数渐近梯度估计来计算预测模型的决策焦点更新,以拓宽决策焦点学习的适用性,从而有效地应对两阶段随机优化问题。