Feb, 2025

大型语言模型在统计编程中的性能评估

TL;DR本研究探讨了大型语言模型(LLMs)在生成统计分析代码方面的有效性和质量,填补了文献中对这一领域的系统评估缺口。通过对ChatGPT和Llama的不同版本在SAS编程任务中的表现进行评估,研究发现尽管LLMs能够生成语法正确的代码,但在深层领域理解和结果准确性方面存在不足。这项研究为未来AI辅助编程系统在统计分析中的进展提供了指导。