ICMLJul, 2021

监督离线排序

TL;DR本研究提出了一种监督式非政策排名方法,利用离线政策数据和已知性能的政策对一组目标政策进行排名,并通过一个基于层次 Transformer 的政策得分模型来实现。实验证明,这种方法在排名相关性、遗憾值和稳定性等指标上优于基准方法。