Oct, 2023

悲观的离策多目标优化

TL;DR多目标优化的离线优化通过现有策略收集的数据进行优化;我们提出了一种悲观估计方法,基于倒数离差分数,可以轻松地插入现有的超体积计算公式进行优化。该方法不仅在理论和实验上改进了朴素的倒数离差分数估计方法,还可以通过策略梯度进行优化,在我们的所有实验中表现良好。