May, 2025

大语言模型在理解代码方面对语义保持变异的鲁棒性如何?

TL;DR本研究解决了大语言模型在编程任务中理解代码的推理和鲁棒性问题。通过采用五种保持语义的代码变异,我们评估了多个最先进的LLM是否能够正确理解Python程序,发现一些模型在61%的案例中基于错误推理作出正确预测,且对代码变异的预测变化显示出其有限的鲁棒性。这一发现对大语言模型在编程领域的有效应用提出了挑战。