Jul, 2024
通过API文档减轻代码LLM幻觉
On Mitigating Code LLM Hallucinations with API Documentation
TL;DR本文介绍了云API基准测试工具CloudAPIBench,用于测量与公共领域中的API假象出现频率相关的API假象。我们发现,Code LLMs在低频API方面存在困难。通过文档增强生成(DAG),我们提高了低频API的性能,但对高频API使用次优的检索器时会有负面影响。为了缓解这一问题,我们提出了智能触发DAG的方法,根据API索引或者利用Code LLMs的置信度分数进行检索。我们证明了我们的方法增强了低频和高频API性能的平衡,在云API基准测试上提高了API调用的可靠性(GPT-4o上绝对改进8.20%)。