基于需求异味的自然语言需求可测试性衡量

Mar, 2024

基于需求异味的自然语言需求可测试性衡量

Natural Language Requirements Testability Measurement Based on Requirement Smells

Morteza Zakeri-Nasrabadi, Saeed Parsa

TL;DR本文提出了一种基于需求异味嗅探和自动生成词典的数学模型，对自然语言需求的可测试性进行评估和排名，并通过经验研究验证了该模型在检测需求异味和测量需求测试性方面的卓越性能。

Abstract

requirements form the basis for defining software systems' obligations and tasks. Testable requirements help prevent failures, reduce maintenance costs, and make it easier to perform acceptance tests. However, de

requirements testability smells dictionary empirical study

发现论文，激发创造

对开放领域对话系统进行可配置评估指标的解构与重构

我们提出了一种灵活的度量方法，并通过组合可管理的质量、将质量分成三组，并将每个方面的指标合成为一个指标，得到了名为 USL-H 的度量方法，证明了 USL-H score 与人工评价具有良好的相关性和可配置性。

Nov, 2020

语言模型评估：超越困惑度

我们提出了一个替代方法来量化语言模型学习自然语言的程度：我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向，提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向，但与经验性趋势相比，更接近所提出的理论分布（当存在时）。此外，对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子，使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系；LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。

May, 2021

用语义保持变换评估程序修复：一种自然性评估方法

研究通过人工调查探讨了语义保持转换的自然性对 NPR（Naturalness of Program Repairs）系统评估的影响，发现 60% 的转换被认为是自然的，20% 的转换被认为是不自然的，这些不自然的转换对 NPR 系统的稳健性测试造成了 25.2% 的误报率，并且 NPR 系统在自然转换下的性能显著下降，提出了一种基于交叉熵的新的自然度度量标准，并成功实现了代码转换的自然度的自动评估。

Feb, 2024

评估问答系统：评判自然语言的复杂性

本文针对问答系统的发展历程、评估指标及其相应的理论框架进行综述，并探讨了相关的评估方法和数据集。

Sep, 2022

自然语言处理任务中的不确定性量化

本论文提出了新方法来研究自然语言处理（NLP）任务中表征模型和数据不确定性的好处，通过在卷积和循环神经网络模型上的实证实验，展示了明确建模不确定性不仅有利于测量输出置信水平，而且对于提升各种 NLP 任务中的模型表现也是有用的。

Nov, 2018

自然语言生成中的主观不确定性量化和校准

利用贝叶斯决策理论的视角，本研究通过假设我们的效用是通过比较生成的回答和理论上的真实回答的相似度来衡量，从而解决了大语言模型生成自由形式回答时的不确定性量化问题。我们进一步从缺失数据的角度推导出一种表征为过量风险的认知不确定性衡量方法。所提出的方法可以应用于黑盒语言模型，并在问答与机器翻译任务上展示了如何从 GPT 和 Gemini 模型中提取具有广泛意义的不确定性估计并量化它们的校准度。

Jun, 2024

确立可信度：重新思考任务和模型评估

语言理解是一个多方面的认知能力，自然语言处理（NLP）领域几十年来一直致力于计算化建模。最近大型语言模型（LLMs）的出现，使得以生成模型为动力的通用性、任务无关的方法成为主流，这导致了语言任务传统上的划分不再适用，带来了对评估和分析的挑战，同时也加大了对可靠系统的需求。因此，我们主张重新思考 NLP 中任务和模型评估的涵义，并追求对语言的更全面视角，将可靠性放在核心地位。为了实现这一目标，我们回顾了现有的划分式方法，以了解模型功能能力的起源，并提出了多方面评估协议的建议。

Oct, 2023

自然语言处理系统的可靠性测试

探讨 NLP 系统的公正性和健壮性，需要进行可靠性测试以制定和实施行业标准。

May, 2021

RoMe: 一种稳健的自然语言生成度量标准

本文提出了一种有效的自动评估度量 RoMe，包括多个自然语言生成核心方面，如语言能力、句法和语义变化，通过基于自我监督神经网络的语义相似性等语言特征，结合树编辑距离和语法可接受性来评估生成句子的整体质量，并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明，在评估多个 NLG 任务生成的句子方面，RoMe 与人类判断的相关性比最先进的度量更强。

Mar, 2022

基于依存句法模型的自动机器翻译评价度量

通过对依存分析模型理解，提出一种不需要人工定义子结构的新的自动评估度量标准，以获取词汇相似性，并取得系统水平的最佳性能。

Aug, 2015