Aug, 2023

大型语言模型代码生成的鲁棒性和可靠性研究

TL;DR最近,大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而,对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI,用于评估 LLMs 生成的代码的可靠性和鲁棒性,并发现甚至对于 GPT-4 而言,62% 的生成代码存在 API 误用,这可能导致意想不到的后果。