代码幻觉
本研究旨在积极检测和减轻生成过程中的“幻觉”问题,通过候选幻觉的识别、校验、减轻和继续生成的方法,成功降低了GPT-3模型的幻觉比例平均从47.5%下降到14.5%。
Jul, 2023
本研究证明,在大型语言模型中消除幻觉是不可能的,因为我们定义了一个形式世界,其中幻觉被定义为一个可计算的语言模型与一个可计算的真实函数之间的不一致性。通过使用学习理论的结果,我们表明语言模型无法学习所有的可计算函数,因此它们将始终产生幻觉。此外,我们还描述了真实世界中受幻觉影响的任务,并通过实证验证了我们的论点。最后,我们讨论了现有幻觉减轻方法的可能机制和功效,以及对安全部署大型语言模型的实际影响。
Jan, 2024
通过主题分析,我们对生成的代码进行了总结和分类,建立了包括五个主要类别的幻觉的综合分类法。基于结果,我们提出了一个评估代码 LLM 性能的基准,名为 HalluCode,并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验,结果表明现有的 LLM 在识别幻觉方面面临巨大挑战,尤其是在识别幻觉类型方面,几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导,为建立更有效可靠的代码 LLMs 铺平道路。
Apr, 2024
大型语言模型在代码生成领域取得了显著的进展,为自动化编程和开发人员提供了前所未有的支持。然而,大型语言模型有时生成的代码虽然看似合理,但无法满足预期要求或执行不正确。本研究提出了基于执行验证的代码幻觉定义方法,并首次引入了代码幻觉的概念,将代码幻觉分为映射、命名、资源和逻辑四种主要类型,以更好地理解和解决大型语言模型在代码生成过程中面临的独特挑战。我们提出了一种动态检测算法和构建了CodeHalu基准测试集,该测试集包括来自699个任务的8,883个样本,用于主动检测大型语言模型在编程过程中的幻觉现象。我们在该基准测试集上测试了16个流行的大型语言模型,评估了它们在代码生成过程中幻觉的频率和性质。研究结果揭示了大型语言模型在生成代码方面准确性和可靠性方面的显著差异,强调了改进模型和训练方法以确保自动生成代码的功能正确性和安全性的紧迫需求。本研究不仅对代码幻觉进行了分类和量化,还为基于大型语言模型的代码生成研究提供了改进的见解。CodeHalu基准测试集和代码可在此https URL上公开获取。
Apr, 2024
通过引入综合诊断基准ToolBH,评估工具增强型大型语言模型(LLMs)的幻觉问题,考虑深度和广度两个维度,通过多层次的诊断流程和三种场景进行评估,结果显示ToolBH基准的挑战性,更大的模型参数并不保证更好的性能,训练数据和响应策略也至关重要,在模型错误中,主要原因是任务可解性的评估,开放权重模型在冗长回复中性能下降,而专有模型在更长推理中表现出色。
Jun, 2024
本文探讨了四个大型语言模型(LLMs)(Llama 3、Gemma、GPT-3.5 Turbo和GPT-4)在幻觉生成和检测任务中的能力,并采用集成多数投票的方法将所有四个模型应用于检测任务,结果对于了解这些模型在处理幻觉生成和检测任务中的优势和不足具有有价值的见解。
Jul, 2024
本研究旨在填补对大语言模型生成代码的幻觉现象的研究空白。通过定义代码幻觉及其分类,提出了首个CodeMirage基准数据集,并检测多种开源LLM的代码幻觉。研究发现GPT-4在HumanEval数据集上的表现最佳,提出了多种减轻代码幻觉的策略,具有重要的实际意义。
Aug, 2024
本研究应对大型语言模型(LLMs)在实际代码生成中常出现的幻觉现象,特别是在复杂上下文依赖的场景下。通过对六种主流LLM的代码生成结果进行手动分析,建立了LLM生成代码的幻觉分类法,并提出了一种基于RAG的缓解方法,显示出在所有研究的LLM中都有一致的有效性。此研究为理解和改善代码生成过程中的幻觉现象提供了重要贡献。
Sep, 2024
本研究针对大型语言模型(LLMs)在生成代码时产生幻觉的问题,提出了Collu-Bench这一基准,以支持代码生成和自动程序修复任务中的研究。通过收集来自多种数据集和LLMs的13234个代码幻觉实例,研究揭示了代码幻觉模式,并引出了准确定位LLMs幻觉的挑战,强调了需要更复杂技术的必要性。
Oct, 2024
本研究针对大型语言模型(LLMs)产生幻觉的问题,进行了不同提示策略和框架的全面实证评估,旨在减少幻觉发生率。研究发现,最佳的提示技术取决于具体问题,简单的提示方法在降低幻觉率方面往往优于复杂方法。此外,外部工具的使用可能导致LLM代理出现显著更高的幻觉率。
Oct, 2024