CodeMirage：大语言模型生成代码中的幻觉

Aug, 2024

CodeMirage：大语言模型生成代码中的幻觉

CodeMirage: Hallucinations in Code Generated by Large Language Models

Vibhor Agarwal, Yulong Pei, Salwa Alamir, Xiaomo Liu

TL;DR本研究旨在填补对大语言模型生成代码的幻觉现象的研究空白。通过定义代码幻觉及其分类，提出了首个CodeMirage基准数据集，并检测多种开源LLM的代码幻觉。研究发现GPT-4在HumanEval数据集上的表现最佳，提出了多种减轻代码幻觉的策略，具有重要的实际意义。

Abstract

Large Language Models (LLMs) have shown promising potentials in program generation and no-code automation. However, LLMs are prone to generate Hallucinations, i.e., they generate text which sounds plausible but i

发现论文，激发创造

及时处理，节省九倍：通过验证低置信度生成结果来检测和减轻LM的幻觉

本研究旨在积极检测和减轻生成过程中的“幻觉”问题，通过候选幻觉的识别、校验、减轻和继续生成的方法，成功降低了GPT-3模型的幻觉比例平均从47.5%下降到14.5%。

Jul, 2023

认知幻象：大型语言模型中幻觉的综述

研究总结了最近对大型语言模型中的幻觉现象的有趣见解，提出了一个包含各种文本生成任务中幻觉的新颖分类法，以及理论洞察、检测方法和改进方法，并提出了若干未来的研究方向。

Sep, 2023

LLM 动力编码生成中的幻觉探索与评估

通过主题分析，我们对生成的代码进行了总结和分类，建立了包括五个主要类别的幻觉的综合分类法。基于结果，我们提出了一个评估代码 LLM 性能的基准，名为 HalluCode，并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验，结果表明现有的 LLM 在识别幻觉方面面临巨大挑战，尤其是在识别幻觉类型方面，几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导，为建立更有效可靠的代码 LLMs 铺平道路。

Apr, 2024

CodeHalu: 基于执行验证的LLMs驱动的代码幻觉

大型语言模型在代码生成领域取得了显著的进展，为自动化编程和开发人员提供了前所未有的支持。然而，大型语言模型有时生成的代码虽然看似合理，但无法满足预期要求或执行不正确。本研究提出了基于执行验证的代码幻觉定义方法，并首次引入了代码幻觉的概念，将代码幻觉分为映射、命名、资源和逻辑四种主要类型，以更好地理解和解决大型语言模型在代码生成过程中面临的独特挑战。我们提出了一种动态检测算法和构建了CodeHalu基准测试集，该测试集包括来自699个任务的8,883个样本，用于主动检测大型语言模型在编程过程中的幻觉现象。我们在该基准测试集上测试了16个流行的大型语言模型，评估了它们在代码生成过程中幻觉的频率和性质。研究结果揭示了大型语言模型在生成代码方面准确性和可靠性方面的显著差异，强调了改进模型和训练方法以确保自动生成代码的功能正确性和安全性的紧迫需求。本研究不仅对代码幻觉进行了分类和量化，还为基于大型语言模型的代码生成研究提供了改进的见解。CodeHalu基准测试集和代码可在此https URL上公开获取。

Apr, 2024

大规模语言模型生成中的幻觉检测：基于词元概率的方法

使用两个简单的分类器和从其他LLM评估器获得的四个数值特征，本文引入了一种监督学习方法，取得了有希望的结果，并在三个不同基准测试中超越了当前最先进的成果。

May, 2024

代码生成的LLM对包装迷思的综合分析

该研究通过对不同编程语言、设置和参数的LLMs配置进行严格全面的评估，探索了不同LLMs配置如何影响生成错误软件包建议的可能性，并识别了这种现象的根本原因。结果表明，所有经过测试的LLMs中有19.7%的生成软件包是产生幻觉的，并且幻觉软件包名的数量达到了205,474个，进一步凸显了这一威胁的严重性和普遍性。同时，实施的缓解策略明显降低了软件包幻觉发生的频率，其中一个模型的幻觉率降低到了3%以下。然而，研究表明软件包幻觉是一个系统性和持久性的现象，给代码生成的LLMs带来了重大挑战。

Jun, 2024

代码幻觉

我们提供了几种代码幻象，通过使用大型语言模型手动生成，同时提出了一种名为HallTrigger的技术，以有效触发任意代码幻象，并展示了这种幻象对软件开发的巨大影响。

Jul, 2024

THaMES：一个用于减轻和评估大型语言模型幻觉的端到端工具

该研究解决了大型语言模型中幻觉问题，即生成不准确内容的挑战，并指出现有方法的不足。论文提出THaMES，一个综合框架，能够自动生成测试集并评估幻觉的减轻效果，通过多种策略优化模型能力，结果表明商用模型在特定情况下更依赖不同的减轻策略，且参数高效微调显著提升模型表现。

Sep, 2024

实际代码生成中的LLM幻觉：现象、机制与缓解

本研究应对大型语言模型（LLMs）在实际代码生成中常出现的幻觉现象，特别是在复杂上下文依赖的场景下。通过对六种主流LLM的代码生成结果进行手动分析，建立了LLM生成代码的幻觉分类法，并提出了一种基于RAG的缓解方法，显示出在所有研究的LLM中都有一致的有效性。此研究为理解和改善代码生成过程中的幻觉现象提供了重要贡献。

Sep, 2024

Collu-Bench：一种用于预测代码中语言模型幻觉的基准

本研究针对大型语言模型（LLMs）在生成代码时产生幻觉的问题，提出了Collu-Bench这一基准，以支持代码生成和自动程序修复任务中的研究。通过收集来自多种数据集和LLMs的13234个代码幻觉实例，研究揭示了代码幻觉模式，并引出了准确定位LLMs幻觉的挑战，强调了需要更复杂技术的必要性。

Oct, 2024