Collu-Bench:一种用于预测代码中语言模型幻觉的基准
本研究旨在积极检测和减轻生成过程中的“幻觉”问题,通过候选幻觉的识别、校验、减轻和继续生成的方法,成功降低了GPT-3模型的幻觉比例平均从47.5%下降到14.5%。
Jul, 2023
通过引入HaloCheck框架,本研究针对较弱的开源大语言模型BLOOM 7B,测量和减少其幻觉现象,并探索了知识注入和师生方法等技术,有效地减少了这些模型在具有挑战性领域中的幻觉。
Aug, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来LLM幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
在大型语言模型时代,幻觉(即生成事实不准确的内容)对于在现实应用中可信可靠地部署语言模型构成了巨大的挑战。为了解决语言模型幻觉问题,本研究对幻觉检测、幻觉来源和幻觉缓解这三个重要问题进行了系统的实证研究。研究通过构建一个新的幻觉基准HalualEval 2.0,设计了一种简单而有效的语言模型幻觉检测方法,并深入分析了导致语言模型幻觉的潜在因素。最后,研究实施并检验了一系列常用的技术来缓解语言模型中的幻觉。本研究的工作为理解幻觉的起源以及缓解语言模型中的幻觉问题提供了重要发现。
Jan, 2024
通过主题分析,我们对生成的代码进行了总结和分类,建立了包括五个主要类别的幻觉的综合分类法。基于结果,我们提出了一个评估代码 LLM 性能的基准,名为 HalluCode,并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验,结果表明现有的 LLM 在识别幻觉方面面临巨大挑战,尤其是在识别幻觉类型方面,几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导,为建立更有效可靠的代码 LLMs 铺平道路。
Apr, 2024
大型语言模型在代码生成领域取得了显著的进展,为自动化编程和开发人员提供了前所未有的支持。然而,大型语言模型有时生成的代码虽然看似合理,但无法满足预期要求或执行不正确。本研究提出了基于执行验证的代码幻觉定义方法,并首次引入了代码幻觉的概念,将代码幻觉分为映射、命名、资源和逻辑四种主要类型,以更好地理解和解决大型语言模型在代码生成过程中面临的独特挑战。我们提出了一种动态检测算法和构建了CodeHalu基准测试集,该测试集包括来自699个任务的8,883个样本,用于主动检测大型语言模型在编程过程中的幻觉现象。我们在该基准测试集上测试了16个流行的大型语言模型,评估了它们在代码生成过程中幻觉的频率和性质。研究结果揭示了大型语言模型在生成代码方面准确性和可靠性方面的显著差异,强调了改进模型和训练方法以确保自动生成代码的功能正确性和安全性的紧迫需求。本研究不仅对代码幻觉进行了分类和量化,还为基于大型语言模型的代码生成研究提供了改进的见解。CodeHalu基准测试集和代码可在此https URL上公开获取。
Apr, 2024
使用两个简单的分类器和从其他LLM评估器获得的四个数值特征,本文引入了一种监督学习方法,取得了有希望的结果,并在三个不同基准测试中超越了当前最先进的成果。
May, 2024
通过引入综合诊断基准ToolBH,评估工具增强型大型语言模型(LLMs)的幻觉问题,考虑深度和广度两个维度,通过多层次的诊断流程和三种场景进行评估,结果显示ToolBH基准的挑战性,更大的模型参数并不保证更好的性能,训练数据和响应策略也至关重要,在模型错误中,主要原因是任务可解性的评估,开放权重模型在冗长回复中性能下降,而专有模型在更长推理中表现出色。
Jun, 2024
本研究旨在填补对大语言模型生成代码的幻觉现象的研究空白。通过定义代码幻觉及其分类,提出了首个CodeMirage基准数据集,并检测多种开源LLM的代码幻觉。研究发现GPT-4在HumanEval数据集上的表现最佳,提出了多种减轻代码幻觉的策略,具有重要的实际意义。
Aug, 2024
该研究解决了大型语言模型中幻觉问题,即生成不准确内容的挑战,并指出现有方法的不足。论文提出THaMES,一个综合框架,能够自动生成测试集并评估幻觉的减轻效果,通过多种策略优化模型能力,结果表明商用模型在特定情况下更依赖不同的减轻策略,且参数高效微调显著提升模型表现。
Sep, 2024