Jun, 2023

通过因果感知的强化学习的极小化最大遗憾优化实现对抗性限制竞价

TL;DR基于对抗性竞价环境下的约束竞价问题,提出了基于最小化策略遗憾的学习方法MiRO,该方法介绍了对抗性对手环境的实现方法。并将专家演示纳入到竞标策略学习中,通过因果关系感知的策略设计,MiROCL方法在工业数据和合成数据上的实验表明,性能提高了30%以上。