BriefGPT.xyz
May, 2022
过程克隆的思维 imitation 链
Chain of Thought Imitation with Procedure Cloning
HTML
PDF
Mengjiao Yang, Dale Schuurmans, Pieter Abbeel, Ofir Nachum
TL;DR
本研究提出了一种称为程序克隆的技术,它使用监督序列预测来模拟专家计算的过程,从而实现了对专家行为中间计算的模仿。该方法不仅学习了如何执行一个特定的操作,更重要的是学习了执行该操作的过程和原因。实验证明,使用程序克隆学习中间计算可以在未知环境配置中产生显著的泛化效果。
Abstract
imitation learning
aims to extract high-performance policies from logged demonstrations of
expert behavior
. It is common to frame
imitation learn
→