Jan, 2024

LangProp:一种应用于驾驶的基于语言模型的代码优化框架

TL;DRLangProp 是一个用于大型语言模型(LLMs)生成的代码的迭代优化框架,在监督 / 强化学习环境中使用。LangProp 自动评估代码在输入输出数据集上的性能,并捕获任何异常,然后将结果反馈给 LLM 以在训练循环中迭代改进生成的代码。这是自动驾驶的代码优化的第一个概念验证,表明 LangProp 能够生成可解释和透明的驾驶策略,可以在基于度量和数据的方式上进行验证和改进。