May, 2023

LeTI: 从文本交互中学习生成

TL;DR通过 LeTI 使用文本交互进行微调,通过 Python 解释器的错误消息和堆栈跟踪作为反馈,明显提高了两种基本 LM 的性能,孰不经验地证明了 LeTI 同样适用于自然语言任务,并观察到了对比二进制反馈,文本反馈将导致改进的生成质量和样本效率。