Dec, 2023

湍流:系统化和自动化测试代码调优的大型语言模型

TL;DR我们提出了一种通过一个新的基准测试Turbluence,系统评估针对代码生成的指导性大型语言模型(LLMs)的正确性和鲁棒性的方法。我们的发现表明,Turbulence能够揭示LLMs的推理能力中的差距,这超出了仅仅强调LLMs有时会产生错误代码的范畴。