Jan, 2024

LLMs 对安全代码审查的深入探讨

TL;DR应用大型语言模型进行安全代码审查时,其生成的回复通常存在冗长、含糊和不完整等问题,需要提高其简练性、可理解性和安全缺陷检测的合规性。本研究比较了三种先进的大型语言模型在 549 个包含安全缺陷的真实代码审查文件上的五个提示下的检测性能,通过分析最佳性能的大型语言模型 - 提示组合产生的 82 个回复中 100 个随机选择的代码文件,提取和分类了这些回复中存在的质量问题,总结出 5 个主题和 16 个类别。该研究揭示了大型语言模型生成的回复在安全代码审查中的不足之处,并为未来优化大型语言模型以更好地完成这一任务铺平了道路。