BriefGPT.xyz
Ask
alpha
关键词
policy scoring model
搜索结果 - 1
ICML
监督离线排序
本研究提出了一种监督式非政策排名方法,利用离线政策数据和已知性能的政策对一组目标政策进行排名,并通过一个基于层次 Transformer 的政策得分模型来实现。实验证明,这种方法在排名相关性、遗憾值和稳定性等指标上优于基准方法。
PDF
3 years ago
Prev
Next