评估基于 NLP 的软件工程模型

Mar, 2022

On the Evaluation of NLP-based Models for Software Engineering

Maliheh Izadi, Matin Nili Ahmadabadi

TL;DR本文探讨了 NLP 模型在软件工程问题上的应用，指出当前对这些模型的评估缺乏一致性和广泛接受的协议，提出有必要提供一种评估 NLP 模型的方法论，以实现一致的评估和公平高效的比较。

Abstract

nlp-based models have been increasingly incorporated to address se problems. These models are either employed in the SE domain with little to no change, or they are greatly tailored to source code and its unique

nlp-based models se problems evaluation metrics comparison

发现论文，激发创造

面向软件工程的大型语言模型：一项系统性文献综述

通过系统文献综述，我们深入研究了大型语言模型（LLMs）与软件工程（SE）的交叉领域，并特别关注 LLMs 在 SE 中的应用、影响和潜在局限。通过收集和分析 2017 年至 2023 年的 229 篇研究论文，我们回答了四个关键研究问题（RQs），比较分析了不同用于 SE 任务的 LLMs 的特点和用途，并详细描述了在此领域中数据收集、预处理和应用的方法，揭示了稳健、经过良好策划的数据集对于成功实施 LLM 的关键作用。同时，我们还调查了优化和评估 LLMs 在 SE 中性能的策略，以及与提示优化相关的常见技术。通过解决上述研究问题，我们勾勒出当前最先进的研究状况，找出现有研究的不足之处，并标注未来研究的有前景的领域。

Aug, 2023

揭示以度量为重点的 LLM 评估：挑战与解决方案

NLP 中，大型语言模型（LLMs）的成功推动了其显著突破，本文对 LLM 的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学 LLM 进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024

确立可信度：重新思考任务和模型评估

语言理解是一个多方面的认知能力，自然语言处理（NLP）领域几十年来一直致力于计算化建模。最近大型语言模型（LLMs）的出现，使得以生成模型为动力的通用性、任务无关的方法成为主流，这导致了语言任务传统上的划分不再适用，带来了对评估和分析的挑战，同时也加大了对可靠系统的需求。因此，我们主张重新思考 NLP 中任务和模型评估的涵义，并追求对语言的更全面视角，将可靠性放在核心地位。为了实现这一目标，我们回顾了现有的划分式方法，以了解模型功能能力的起源，并提出了多方面评估协议的建议。

Oct, 2023

分级评估框架：人工评估的最佳实践

通过对现有文献进行广泛分析，我们发现在自然语言处理的人工评估方法中存在一些缺陷，这促使我们开发了一种层次化评估框架，该框架具有更全面地表示自然语言处理系统性能的显著优点，并应用于评估机器阅读理解系统及其与人工智能共生模型中的输入和输出的质量之间的关联。

Oct, 2023

循着最佳实践指引的机器学习

本文旨在通过分析机器学习在软件工程中的最佳实践，填补现有文献不足的空缺，并针对机器学习应用所面临的挑战和开发过程，提出一系列以软件工程视角为基础的建议。

Apr, 2023

足够公平：在自然语言处理领域规范评估和选择公平性研究的模型

本研究就 NLP 系统展示的偏见和模型去偏见技术的限制做了梳理和评价，提出了实现公平学习的建议，具体包括明确不同方法之间的关系和与公平性理论的关系，以及处理模型选择问题的声明性工具，以帮助未来的工作。

Feb, 2023

自然语言处理和大型语言模型的公平认证

发展公平认证以确保自然语言处理系统的算法公正性和对少数群体的非歧视性。

Jan, 2024

语言模型可复现评估的实践经验

在 NLP 中，评估语言模型的有效性仍然是一个开放性挑战。本文通过三年的经验总结提供了对评估语言模型的指导和教训，并介绍了用于独立、可重现和可扩展评估语言模型的开源库。

May, 2024

自然语言模型对抗性评估

本文提出了一种用于评估自然语言处理模型的新的抽象框架，通过明确研究人员之间的某些对抗角色，这有助于定义不同角色在评估中的贡献，并鼓励更早的错误分析，这个框架可以用多种方式实例化，并模拟一些熟悉的内部和外部评估以及一些新的评估。

Jul, 2012

核心竞争力视角下的大型语言模型评估调查

从预训练语言模型（PLM）到大型语言模型（LLM），自然语言处理（NLP）领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估 LLM 的困难，这篇论文调查了关于 LLM 评估的多篇论文，并总结了 LLM 的四个核心能力，包括推理、知识、可靠性和安全性。在这个能力结构下，相似的任务被合并以反映相应的能力，而新的任务也可以轻松地添加到系统中。最后，给出了关于 LLM 评估未来方向的建议。

Aug, 2023