Apr, 2024

降维多目标策略学习与优化

TL;DR通过降维回归模型,我们提出了一种数据驱动的方法,以多目标的最优政策学习为背景,从观测结果中学习出真实结果的低维度表示。我们的方法在政策评估和优化中降低了估计误差,通过降低噪音社会结果的方差,提高了算法分配的性能。