Feb, 2022

一个强健的相位消除算法,用于容错高斯过程赌博机

TL;DR针对连续的、昂贵的评估的未知、有噪音和对抗性损坏的奖励函数的时序优化问题,提出了一种新的强化的消除型算法,称为RGP-PE,它成功地平衡了对于削弱性的稳健性和探索和开发,其性能不会因存在(或不存在)对抗性污染而降低。