关于基于嵌入的方法在代码生成中测量功能正确性的局限性

Apr, 2024

关于基于嵌入的方法在代码生成中测量功能正确性的局限性

On the Limitations of Embedding Based Methods for Measuring Functional Correctness for Code Generation

Atharva Naik

TL;DR使用嵌入式度量指标如 CodeBERTScore 来测量功能正确性和编辑工作量的能力分析。

Abstract

The task of code generation from natural language (nl2code) has become extremely popular, especially with the advent of Large Language Mod

code generation natural language nl2code embedding-based metrics functional correctness

发现论文，激发创造

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

层次还是表示空间：什么使 BERT 基于评估度量具有鲁棒性？

本文论述了嵌入式度量用于关于文本生成的度量技术，在面对新的和嘈杂的领域时，它们的贡献和一些挑战，考虑到输入的噪声量和未知的记号。这篇文章重点研究 BERTScore，证明了使用预训练模型第一层的字符级别嵌入比标记级嵌入更加鲁棒。

Sep, 2022

NoFunEval: 搞笑的事实上代码语言模型在功能正确性以外的要求上遭遇困难

我们提出了一个新的评估标准 NoFunEval，用于评估代码语言模型在非功能需求和功能需求的简单分类实例上的表现，发现它们在测试中普遍表现不佳，对其训练设置存在根本的盲点。

Jan, 2024

将人工智能配对编程的离线度量与人类价值判断对齐

研究表明，具有实现代码自动生成能力的大型语言模型的正确性及努力度均对程序员的价值有影响，建议设计出更人性化的评估指标以评估这些模型的优劣。

Oct, 2022

自然语言生成的人类似评估及其误差分析

该论文介绍了一种基于 BARTScore 的人工智能评估方法，通过自动化错误分析以达到更接近人类的漏洞检测，实验证明该方法在 20 个测试环境中优于现有的最佳评价指标。

Dec, 2022

能否更简单地做到这一点？自然语言生成的简单、高效、高质量评估指标

本文探讨了自然语言生成的有效评估指标，以及通过使用轻量级版本的 Transformer 和线性、二次逼近算法来实现评估指标的高效计算，研究发现，TinyBERT 在语义相似性评估指标方面表现最佳，并且在平均推理时间上比原算法要快 5 倍，但 WMD 近似计算并没有带来效率提升，反而在部分机器翻译数据集上使得质量下降。

Sep, 2022

从自然语言问题描述生成功能正确的代码编辑

本文提出了将自然语言编程描述翻译为正确代码修改的任务 NL2Fix，为此引入了包含高级 Bug 修复描述的 Defects4J-NL2Fix 数据集，并对多种最先进的 LLMs 进行了实证评估，结果表明这些 LLMs 能够对 64.6% 的错误生成合理的修复，并且最佳 LLM 技术在此基准测试中可以达到 21.20% 的 top-1 和 35.68% 的 top-5 精度。

Apr, 2023

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

基于经验的度量偏好清单：超越相关性分析的自然语言生成评估指标

该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量，并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示，多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越，并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问，以及审查 NLG 系统的优势和局限性的能力。

May, 2023

WRDScore: 评估自然语言生成模型的新指标

自然语言生成中方法名称预测面临困难，为了解决这些问题，我们提出了一种新的度量标准，能够计算精确度和召回率，并在与人类判断相比获得良好的性能。

May, 2024