May, 2023
LeTI: 从文本交互中学习生成
LeTI: Learning to Generate from Textual Interactions
Xingyao Wang, Hao Peng, Reyhaneh Jabbarvand, Heng Ji
TL;DR通过 LeTI 使用文本交互进行微调,通过 Python 解释器的错误消息和堆栈跟踪作为反馈,明显提高了两种基本 LM 的性能,孰不经验地证明了 LeTI 同样适用于自然语言任务,并观察到了对比二进制反馈,文本反馈将导致改进的生成质量和样本效率。