May, 2023

序贯实验设计中的交叉熵估计与强化学习

TL;DR该研究提出了一种基于交叉熵的替代下界估计方法,其使用灵活的提议分布来近似模型参数的真实后验,不需要对比样本,并且可以在多种任务中实现更加准确的估计和学习。