本研究提出了一个基于 GPT-3.5 的评估框架,用于评估代码生成的功能正确性和人类偏好,能够在不需要测试 oracle 或参考文献的情况下,达到比 CodeBERTScore 更高的准确性和一致性。
Apr, 2023
本文论述了嵌入式度量用于关于文本生成的度量技术,在面对新的和嘈杂的领域时,它们的贡献和一些挑战,考虑到输入的噪声量和未知的记号。这篇文章重点研究 BERTScore,证明了使用预训练模型第一层的 字符级别嵌入 比标记级嵌入更加鲁棒。
Sep, 2022
我们提出了一个新的评估标准 NoFunEval,用于评估代码语言模型在非功能需求和功能需求的简单分类实例上的表现,发现它们在测试中普遍表现不佳,对其训练设置存在根本的盲点。
Jan, 2024
研究表明,具有实现代码自动生成能力的大型语言模型的正确性及努力度均对程序员的价值有影响,建议设计出更人性化的评估指标以评估这些模型的优劣。
Oct, 2022
该论文介绍了一种基于 BARTScore 的人工智能评估方法,通过自动化错误分析以达到更接近人类的漏洞检测,实验证明该方法在 20 个测试环境中优于现有的最佳评价指标。
Dec, 2022
本文探讨了自然语言生成的有效评估指标,以及通过使用轻量级版本的 Transformer 和线性、二次逼近算法来实现评估指标的高效计算,研究发现,TinyBERT 在语义相似性评估指标方面表现最佳,并且在平均推理时间上比原算法要快 5 倍,但 WMD 近似计算并没有带来效率提升,反而在部分机器翻译数据集上使得质量下降。
本文提出了将自然语言编程描述翻译为正确代码修改的任务 NL2Fix,为此引入了包含高级 Bug 修复描述的 Defects4J-NL2Fix 数据集,并对多种最先进的 LLMs 进行了实证评估,结果表明这些 LLMs 能够对 64.6% 的错误生成合理的修复,并且最佳 LLM 技术在此基准测试中可以达到 21.20% 的 top-1 和 35.68% 的 top-5 精度。
对大型语言模型在编程任务中的评估工作进行了关键综述,着重讨论了现有工具的评估中使用的基准和度量标准,并提出了进一步研究的方向。
Jun, 2024
该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量,并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示,多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越,并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问,以及审查 NLG 系统的优势和局限性的能力。
May, 2023
自然语言生成中方法名称预测面临困难,为了解决这些问题,我们提出了一种新的度量标准,能够计算精确度和召回率,并在与人类判断相比获得良好的性能。
May, 2024