Oct, 2024

Collu-Bench:一种用于预测代码中语言模型幻觉的基准

TL;DR本研究针对大型语言模型(LLMs)在生成代码时产生幻觉的问题,提出了Collu-Bench这一基准,以支持代码生成和自动程序修复任务中的研究。通过收集来自多种数据集和LLMs的13234个代码幻觉实例,研究揭示了代码幻觉模式,并引出了准确定位LLMs幻觉的挑战,强调了需要更复杂技术的必要性。