Aug, 2023

大型语言模型代码生成的鲁棒性和可靠性研究

TL;DR最近,大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而,对于LLMs生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括1208个编程问题的数据集RobustAPI,用于评估LLMs生成的代码的可靠性和鲁棒性,并发现甚至对于GPT-4而言,62%的生成代码存在API误用,这可能导致意想不到的后果。