Apr, 2025
基准测试大型语言模型用于代码异味检测:OpenAI GPT-4.0 与 DeepSeek-V3
Benchmarking LLM for Code Smells Detection: OpenAI GPT-4.0 vs
DeepSeek-V3
TL;DR本研究解决了识别最有效的大型语言模型用于代码异味检测的问题。提出了一种结构化的方法论和评估矩阵,并使用四种编程语言的数据集对两种前沿LLM进行基准测试。研究发现,分析表明不同模型在性能和成本效益方面的显著差异,为实践者在自动化代码异味检测中的解决方案选择提供了宝贵的指导。