Jun, 2024

代码生成的 LLM 对包装迷思的综合分析

TL;DR该研究通过对不同编程语言、设置和参数的 LLMs 配置进行严格全面的评估,探索了不同 LLMs 配置如何影响生成错误软件包建议的可能性,并识别了这种现象的根本原因。结果表明,所有经过测试的 LLMs 中有 19.7% 的生成软件包是产生幻觉的,并且幻觉软件包名的数量达到了 205,474 个,进一步凸显了这一威胁的严重性和普遍性。同时,实施的缓解策略明显降低了软件包幻觉发生的频率,其中一个模型的幻觉率降低到了 3% 以下。然而,研究表明软件包幻觉是一个系统性和持久性的现象,给代码生成的 LLMs 带来了重大挑战。