May, 2022

过程克隆的思维 imitation 链

TL;DR本研究提出了一种称为程序克隆的技术,它使用监督序列预测来模拟专家计算的过程,从而实现了对专家行为中间计算的模仿。该方法不仅学习了如何执行一个特定的操作,更重要的是学习了执行该操作的过程和原因。实验证明,使用程序克隆学习中间计算可以在未知环境配置中产生显著的泛化效果。