Jan, 2022

通过迭代局部搜索进行编程策略提取

TL;DR通过结合模仿投影、数据集聚合和局部搜索启发式,我们提出了一种直接提取预训练神经策略的程序化策略的简单方法,该方法在编程问题和摆动问题上实现了可解释性和高效性。