Oct, 2023

自我教导优化器 (STOP): 递归自我改进代码生成

TL;DR使用语言模型加持的搭脚手架程序作为种子,通过多次调用语言模型查询并返回最佳解决方案的方式,改进输入程序并实现自我提升。在此基础上,通过分析搭脚手架程序的自我提升策略,包括束搜索、遗传算法和模拟退火,证明现代语言模型(以我们的概念验证实验中的GPT-4为例)可以编写能够调用自身以实现自我提升的代码。同时,对于搭脚手架程序的开发引发的自我改进技术可能带来的问题,以及生成的代码绕过沙盒的频率进行了评估。