Jun, 2024

代码生成的LLM对包装迷思的综合分析

TL;DR该研究通过对不同编程语言、设置和参数的LLMs配置进行严格全面的评估,探索了不同LLMs配置如何影响生成错误软件包建议的可能性,并识别了这种现象的根本原因。结果表明,所有经过测试的LLMs中有19.7%的生成软件包是产生幻觉的,并且幻觉软件包名的数量达到了205,474个,进一步凸显了这一威胁的严重性和普遍性。同时,实施的缓解策略明显降低了软件包幻觉发生的频率,其中一个模型的幻觉率降低到了3%以下。然而,研究表明软件包幻觉是一个系统性和持久性的现象,给代码生成的LLMs带来了重大挑战。