AAAIDec, 2023

基于近似贝叶斯计算的概率离线策略排序

TL;DR使用专家数据来表征候选政策以及近似其整个性能后验分布,从而在最差、最好和平均情况下对候选政策进行排名的概率离线政策排名(POPR)框架。通过基于能量的近似贝叶斯计算(ABC)方法来估计后验分布,并通过伪似然度量来提高抽样效率。POPR-EABC 在不同实验环境中的离散和连续动作空间下对政策进行评估,有助于在实际部署之前对候选政策进行概率比较。