在代码分布变动下对大型语言模型的不确定性认知：基准研究

Jan, 2024

在代码分布变动下对大型语言模型的不确定性认知：基准研究

Uncertainty Awareness of Large Language Models Under Code Distribution Shifts: A Benchmark Study

Yufei Li, Simin Chen, Yanghong Guo, Wei Yang, Yue Dong...

TL;DR大规模语言模型在编程语言分析中被广泛应用以提高人类生产力。本研究通过引入大规模基准数据集，调查了应用概率方法来处理与代码分布变化相关的问题，结果表明这些方法能够提高 CodeLlama 的不确定性感知能力，并增加校准质量和不确定性估计精度。然而，在不同标准（如校准误差与错误分类检测）和效能与效率之间存在不同的性能动态，强调了需根据特定环境进行方法选择的必要性。

Abstract

large language models (LLMs) have been widely employed in programming language analysis to enhance human productivity. Yet, their reliability can be compromised by various code distribution shifts, leading to inc

large language models code distribution shifts probabilistic methods uncertainty calibration codellama

发现论文，激发创造

审慎行事：大型语言模型下的不确定性测量的探索性研究

从不确定性的角度进行的风险评估研究表明不确定性估计方法可用于揭示大型语言模型的预测风险，并可能发现由该模型生成的有错误的程序。

Jul, 2023

大型语言模型必须学会自知之明

在高风险应用中使用大型语言模型（LLMs）时，我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的，然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制，并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。

Jun, 2024

大型语言模型代码生成的鲁棒性和可靠性研究

最近，大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而，对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI，用于评估 LLMs 生成的代码的可靠性和鲁棒性，并发现甚至对于 GPT-4 而言，62% 的生成代码存在 API 误用，这可能导致意想不到的后果。

Aug, 2023

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

通过不确定性量化对 LLMs 进行基准测试

通过整合不确定性量化的新型基准评估方法，本研究发现：准确性较高的大型语言模型可能显示出较低的确定性，较大规模的语言模型可能与较小规模的模型相比具有更大的不确定性，指令微调倾向于增加语言模型的不确定性。这些结果强调了在语言模型评估中整合不确定性的重要性。

Jan, 2024

超越概率：揭示大型语言模型评估中的不一致性

使用大型语言模型（LLMs）进行多项选择题（MCQs）的实证研究表明，概率评估方法在生成预测方面存在内在局限性，与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关，结果强调了 LLMs 评估方法的有效性和未来研究的启示。

Feb, 2024

通过利用不确定性感知型上下文学习提高大型语言模型的可靠性

通过引入一种不确定性感知的上下文学习框架，我们改进了大规模语言模型的响应质量，并过滤掉具有较高不确定性的答案，从而提高了模型的准确性。

Oct, 2023

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量，提出几个置信度 / 不确定度统计度量标准，并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。

May, 2023

关于代码生成的大型语言模型调查

基于大规模语言模型的代码生成领域的综述，介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用，对学术与实践之间的差距进行了分析，提出了关键挑战和机遇，并提供了一个资源网站以记录和传播该领域的最新进展。

Jun, 2024

CodeS: 面向分布偏移下的代码模型泛化

本文提出了 CodeS, 一个用于源代码学习的分布式模型的测试基准数据集，实验证明，在源代码任务中，其他领域的模型无法普遍适用，所有的代码分类模型都存在分布转变且受到表示性分布的影响更大，而预训练的双模型相对分布分离的适应性较强。

Jun, 2022