Aug, 2024

CodeMirage:大语言模型生成代码中的幻觉

TL;DR本研究旨在填补对大语言模型生成代码的幻觉现象的研究空白。通过定义代码幻觉及其分类,提出了首个CodeMirage基准数据集,并检测多种开源LLM的代码幻觉。研究发现GPT-4在HumanEval数据集上的表现最佳,提出了多种减轻代码幻觉的策略,具有重要的实际意义。