Oct, 2020

随机领域贝叶斯策略搜索

TL;DR该研究将随机领域的政策搜索视为贝叶斯推断问题,并提供了一种将此类问题编码为嵌套概率程序的方案。研究表明,即使使用更简单、更普遍的推断算法,仍然可以学习到质量相似的策略。