LLM 动力编码生成中的幻觉探索与评估

Apr, 2024

LLM 动力编码生成中的幻觉探索与评估

Exploring and Evaluating Hallucinations in LLM-Powered Code Generation

Fang Liu, Yang Liu, Lin Shi, Houkun Huang, Ruifeng Wang...

TL;DR通过主题分析，我们对生成的代码进行了总结和分类，建立了包括五个主要类别的幻觉的综合分类法。基于结果，我们提出了一个评估代码 LLM 性能的基准，名为 HalluCode，并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验，结果表明现有的 LLM 在识别幻觉方面面临巨大挑战，尤其是在识别幻觉类型方面，几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导，为建立更有效可靠的代码 LLMs 铺平道路。

Abstract

The rise of large language models (LLMs) has significantly advanced many applications on software engineering tasks, particularly in code generation. Despite the promising performance, LLMs are prone to generate

发现论文，激发创造

及时处理，节省九倍：通过验证低置信度生成结果来检测和减轻LM的幻觉

本研究旨在积极检测和减轻生成过程中的“幻觉”问题，通过候选幻觉的识别、校验、减轻和继续生成的方法，成功降低了GPT-3模型的幻觉比例平均从47.5%下降到14.5%。

Jul, 2023

AI海洋中的塞壬之歌：大型语言模型中的幻觉调查

本文调查了近期关于大型语言模型（LLMs）幻觉的检测、解释和缓解的努力，并着重讨论了LLMs所带来的独特挑战，提出了LLM幻觉现象的分类和评估基准，并分析了现有的缓解LLM幻觉方法，探讨了未来研究的潜在方向。

Sep, 2023

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来LLM幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

CodeHalu: 基于执行验证的LLMs驱动的代码幻觉

大型语言模型在代码生成领域取得了显著的进展，为自动化编程和开发人员提供了前所未有的支持。然而，大型语言模型有时生成的代码虽然看似合理，但无法满足预期要求或执行不正确。本研究提出了基于执行验证的代码幻觉定义方法，并首次引入了代码幻觉的概念，将代码幻觉分为映射、命名、资源和逻辑四种主要类型，以更好地理解和解决大型语言模型在代码生成过程中面临的独特挑战。我们提出了一种动态检测算法和构建了CodeHalu基准测试集，该测试集包括来自699个任务的8,883个样本，用于主动检测大型语言模型在编程过程中的幻觉现象。我们在该基准测试集上测试了16个流行的大型语言模型，评估了它们在代码生成过程中幻觉的频率和性质。研究结果揭示了大型语言模型在生成代码方面准确性和可靠性方面的显著差异，强调了改进模型和训练方法以确保自动生成代码的功能正确性和安全性的紧迫需求。本研究不仅对代码幻觉进行了分类和量化，还为基于大型语言模型的代码生成研究提供了改进的见解。CodeHalu基准测试集和代码可在此https URL上公开获取。

Apr, 2024

大规模语言模型生成中的幻觉检测：基于词元概率的方法

使用两个简单的分类器和从其他LLM评估器获得的四个数值特征，本文引入了一种监督学习方法，取得了有希望的结果，并在三个不同基准测试中超越了当前最先进的成果。

May, 2024

代码幻觉

我们提供了几种代码幻象，通过使用大型语言模型手动生成，同时提出了一种名为HallTrigger的技术，以有效触发任意代码幻象，并展示了这种幻象对软件开发的巨大影响。

Jul, 2024

CodeMirage：大语言模型生成代码中的幻觉

本研究旨在填补对大语言模型生成代码的幻觉现象的研究空白。通过定义代码幻觉及其分类，提出了首个CodeMirage基准数据集，并检测多种开源LLM的代码幻觉。研究发现GPT-4在HumanEval数据集上的表现最佳，提出了多种减轻代码幻觉的策略，具有重要的实际意义。

Aug, 2024

实际代码生成中的LLM幻觉：现象、机制与缓解

本研究应对大型语言模型（LLMs）在实际代码生成中常出现的幻觉现象，特别是在复杂上下文依赖的场景下。通过对六种主流LLM的代码生成结果进行手动分析，建立了LLM生成代码的幻觉分类法，并提出了一种基于RAG的缓解方法，显示出在所有研究的LLM中都有一致的有效性。此研究为理解和改善代码生成过程中的幻觉现象提供了重要贡献。

Sep, 2024

Collu-Bench：一种用于预测代码中语言模型幻觉的基准

本研究针对大型语言模型（LLMs）在生成代码时产生幻觉的问题，提出了Collu-Bench这一基准，以支持代码生成和自动程序修复任务中的研究。通过收集来自多种数据集和LLMs的13234个代码幻觉实例，研究揭示了代码幻觉模式，并引出了准确定位LLMs幻觉的挑战，强调了需要更复杂技术的必要性。

Oct, 2024

探讨提示和外部工具在大型语言模型幻觉率中的作用

本研究针对大型语言模型（LLMs）产生幻觉的问题，进行了不同提示策略和框架的全面实证评估，旨在减少幻觉发生率。研究发现，最佳的提示技术取决于具体问题，简单的提示方法在降低幻觉率方面往往优于复杂方法。此外，外部工具的使用可能导致LLM代理出现显著更高的幻觉率。

Oct, 2024