CodeMirage:大语言模型生成代码中的幻觉
本研究旨在积极检测和减轻生成过程中的“幻觉”问题,通过候选幻觉的识别、校验、减轻和继续生成的方法,成功降低了GPT-3模型的幻觉比例平均从47.5%下降到14.5%。
Jul, 2023
研究总结了最近对大型语言模型中的幻觉现象的有趣见解,提出了一个包含各种文本生成任务中幻觉的新颖分类法,以及理论洞察、检测方法和改进方法,并提出了若干未来的研究方向。
Sep, 2023
通过主题分析,我们对生成的代码进行了总结和分类,建立了包括五个主要类别的幻觉的综合分类法。基于结果,我们提出了一个评估代码 LLM 性能的基准,名为 HalluCode,并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验,结果表明现有的 LLM 在识别幻觉方面面临巨大挑战,尤其是在识别幻觉类型方面,几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导,为建立更有效可靠的代码 LLMs 铺平道路。
Apr, 2024
大型语言模型在代码生成领域取得了显著的进展,为自动化编程和开发人员提供了前所未有的支持。然而,大型语言模型有时生成的代码虽然看似合理,但无法满足预期要求或执行不正确。本研究提出了基于执行验证的代码幻觉定义方法,并首次引入了代码幻觉的概念,将代码幻觉分为映射、命名、资源和逻辑四种主要类型,以更好地理解和解决大型语言模型在代码生成过程中面临的独特挑战。我们提出了一种动态检测算法和构建了CodeHalu基准测试集,该测试集包括来自699个任务的8,883个样本,用于主动检测大型语言模型在编程过程中的幻觉现象。我们在该基准测试集上测试了16个流行的大型语言模型,评估了它们在代码生成过程中幻觉的频率和性质。研究结果揭示了大型语言模型在生成代码方面准确性和可靠性方面的显著差异,强调了改进模型和训练方法以确保自动生成代码的功能正确性和安全性的紧迫需求。本研究不仅对代码幻觉进行了分类和量化,还为基于大型语言模型的代码生成研究提供了改进的见解。CodeHalu基准测试集和代码可在此https URL上公开获取。
Apr, 2024
使用两个简单的分类器和从其他LLM评估器获得的四个数值特征,本文引入了一种监督学习方法,取得了有希望的结果,并在三个不同基准测试中超越了当前最先进的成果。
May, 2024
该研究通过对不同编程语言、设置和参数的LLMs配置进行严格全面的评估,探索了不同LLMs配置如何影响生成错误软件包建议的可能性,并识别了这种现象的根本原因。结果表明,所有经过测试的LLMs中有19.7%的生成软件包是产生幻觉的,并且幻觉软件包名的数量达到了205,474个,进一步凸显了这一威胁的严重性和普遍性。同时,实施的缓解策略明显降低了软件包幻觉发生的频率,其中一个模型的幻觉率降低到了3%以下。然而,研究表明软件包幻觉是一个系统性和持久性的现象,给代码生成的LLMs带来了重大挑战。
Jun, 2024
该研究解决了大型语言模型中幻觉问题,即生成不准确内容的挑战,并指出现有方法的不足。论文提出THaMES,一个综合框架,能够自动生成测试集并评估幻觉的减轻效果,通过多种策略优化模型能力,结果表明商用模型在特定情况下更依赖不同的减轻策略,且参数高效微调显著提升模型表现。
Sep, 2024
本研究应对大型语言模型(LLMs)在实际代码生成中常出现的幻觉现象,特别是在复杂上下文依赖的场景下。通过对六种主流LLM的代码生成结果进行手动分析,建立了LLM生成代码的幻觉分类法,并提出了一种基于RAG的缓解方法,显示出在所有研究的LLM中都有一致的有效性。此研究为理解和改善代码生成过程中的幻觉现象提供了重要贡献。
Sep, 2024
本研究针对大型语言模型(LLMs)在生成代码时产生幻觉的问题,提出了Collu-Bench这一基准,以支持代码生成和自动程序修复任务中的研究。通过收集来自多种数据集和LLMs的13234个代码幻觉实例,研究揭示了代码幻觉模式,并引出了准确定位LLMs幻觉的挑战,强调了需要更复杂技术的必要性。
Oct, 2024