将人工智能配对编程的离线度量与人类价值判断对齐

Oct, 2022

将人工智能配对编程的离线度量与人类价值判断对齐

Aligning Offline Metrics and Human Judgments of Value of AI-Pair Programmers

Victor Dibia, Adam Fourney, Gagan Bansal, Forough Poursabzi-Sangdeh, Han Liu...

TL;DR研究表明，具有实现代码自动生成能力的大型语言模型的正确性及努力度均对程序员的价值有影响，建议设计出更人性化的评估指标以评估这些模型的优劣。

Abstract

large language models trained on massive amounts of natural language data and code have shown impressive capabilities in automatic code generation scenarios. Development and evaluation of these models has largely

large language models automatic code generation functional correctness effort user study

发现论文，激发创造

关于基于嵌入的方法在代码生成中测量功能正确性的局限性

使用嵌入式度量指标如 CodeBERTScore 来测量功能正确性和编辑工作量的能力分析。

Apr, 2024

评估评估者的人：关于评估基于 AI 的进攻性代码生成器的自动指标

该研究分析了在 AI 代码生成器上采用不同相似度度量方式的适用性，比较了自动估计和人工评估之间的差异，并提供了实用性见解。

Dec, 2022

RealHumanEval: 评估大型语言模型对程序员的支持能力

通过使用 RealHumanEval、静态基准以及优先度度量，研究了大型语言模型（LLMs）在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力，但基准性能与人类表现之间的差距并不成比例，同时程序员的偏好与实际表现并无关联，这促使我们需要更好、以人为中心的评估指标。同时，我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。

Apr, 2024

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

xCodeEval：一项用于代码理解、生成、翻译和检索的大规模多语言多任务基准测试

人工智能正在开发出可以用于程序编写的 AI 系统，生成代码的自然语言描述，语言模型在生成代码的过程中表现出了良好的性能，但它们的评估通常只在少数语言和部分层次上进行，还需要更好的培训数据。

Mar, 2023

人工评价与自动评价：相关性设计的重要性

本文讨论了在自然语言生成领域中，自动评估度量和人类评分之间相关性分析的两种方法。我们的实验表明，根据使用系统级或句子级相关性分析，自动评分和人类判断之间的相关性结果是不一致的。

May, 2018

基于经验的度量偏好清单：超越相关性分析的自然语言生成评估指标

该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量，并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示，多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越，并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问，以及审查 NLG 系统的优势和局限性的能力。

May, 2023

自然语言生成中的自动评估的玻璃天花板

本文对比了现有的自动评估指标和人工评估指标，发现自动评估指标与人工评估指标相比非常相似，并提出了未来评估工作的建议。

Aug, 2022

自动度量文本生成偏好评级中的错误校正

本文介绍了一种基于统计模型的文本生成评估方法，利用自动化度量的优点和人工评级的精度，通过最佳组合的方式来改进文本生成评估的准确度，而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。

Jun, 2023

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020