BriefGPT.xyz
Ask
alpha
关键词
amortised design policies
搜索结果 - 1
序贯实验设计中的交叉熵估计与强化学习
该研究提出了一种基于交叉熵的替代下界估计方法,其使用灵活的提议分布来近似模型参数的真实后验,不需要对比样本,并且可以在多种任务中实现更加准确的估计和学习。
PDF
a year ago
Prev
Next