评估基于 NLP 的软件工程模型
通过系统文献综述,我们深入研究了大型语言模型(LLMs)与软件工程(SE)的交叉领域,并特别关注 LLMs 在 SE 中的应用、影响和潜在局限。通过收集和分析 2017 年至 2023 年的 229 篇研究论文,我们回答了四个关键研究问题(RQs),比较分析了不同用于 SE 任务的 LLMs 的特点和用途,并详细描述了在此领域中数据收集、预处理和应用的方法,揭示了稳健、经过良好策划的数据集对于成功实施 LLM 的关键作用。同时,我们还调查了优化和评估 LLMs 在 SE 中性能的策略,以及与提示优化相关的常见技术。通过解决上述研究问题,我们勾勒出当前最先进的研究状况,找出现有研究的不足之处,并标注未来研究的有前景的领域。
Aug, 2023
NLP 中,大型语言模型(LLMs)的成功推动了其显著突破,本文对 LLM 的评估方法进行了全面探索,提供了选择和解读已使用度量标准的见解,并采用最新的生物医学 LLM 进行了这些度量标准的应用比较,旨在为研究人员提供一个实用的指南,推进对这些大型语言模型的理解和应用。
Apr, 2024
语言理解是一个多方面的认知能力,自然语言处理(NLP)领域几十年来一直致力于计算化建模。最近大型语言模型(LLMs)的出现,使得以生成模型为动力的通用性、任务无关的方法成为主流,这导致了语言任务传统上的划分不再适用,带来了对评估和分析的挑战,同时也加大了对可靠系统的需求。因此,我们主张重新思考 NLP 中任务和模型评估的涵义,并追求对语言的更全面视角,将可靠性放在核心地位。为了实现这一目标,我们回顾了现有的划分式方法,以了解模型功能能力的起源,并提出了多方面评估协议的建议。
Oct, 2023
通过对现有文献进行广泛分析,我们发现在自然语言处理的人工评估方法中存在一些缺陷,这促使我们开发了一种层次化评估框架,该框架具有更全面地表示自然语言处理系统性能的显著优点,并应用于评估机器阅读理解系统及其与人工智能共生模型中的输入和输出的质量之间的关联。
Oct, 2023
本研究就 NLP 系统展示的偏见和模型去偏见技术的限制做了梳理和评价,提出了实现公平学习的建议,具体包括明确不同方法之间的关系和与公平性理论的关系,以及处理模型选择问题的声明性工具,以帮助未来的工作。
Feb, 2023
在 NLP 中,评估语言模型的有效性仍然是一个开放性挑战。本文通过三年的经验总结提供了对评估语言模型的指导和教训,并介绍了用于独立、可重现和可扩展评估语言模型的开源库。
May, 2024
本文提出了一种用于评估自然语言处理模型的新的抽象框架,通过明确研究人员之间的某些对抗角色,这有助于定义不同角色在评估中的贡献,并鼓励更早的错误分析,这个框架可以用多种方式实例化,并模拟一些熟悉的内部和外部评估以及一些新的评估。
Jul, 2012
从预训练语言模型(PLM)到大型语言模型(LLM),自然语言处理(NLP)领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估 LLM 的困难,这篇论文调查了关于 LLM 评估的多篇论文,并总结了 LLM 的四个核心能力,包括推理、知识、可靠性和安全性。在这个能力结构下,相似的任务被合并以反映相应的能力,而新的任务也可以轻松地添加到系统中。最后,给出了关于 LLM 评估未来方向的建议。
Aug, 2023