AEON: 自然语言处理测试用例自动评估方法

May, 2022

AEON: 自然语言处理测试用例自动评估方法

AEON: A Method for Automatic Evaluation of NLP Test Cases

Jen-tse Huang, Jianping Zhang, Wenxuan Wang, Pinjia He, Yuxin Su...

TL;DR使用 AEON 工具对生成的测试用例进行语义相似性和语言自然度评估，从而提高测试用例的质量，最终帮助提高自然语言处理软件的准确性和稳健性。

Abstract

Due to the labor-intensive nature of manual test oracle construction, various automated testing techniques have been proposed to enhance the reliability of natural language processing (NLP) software. In theory, t

automated testing natural language processing test case generation semantic similarity language naturalness

发现论文，激发创造

LEAP: 自然语言处理软件的高效自动化测试方法

该研究提出了一种自动化测试方法 LEAP，基于 Levy 飞行和粒子群优化，结合文本特征生成对抗性测试用例，实验证明 LEAP 在生成对抗性测试用例的平均成功率为 79.1％，比其他方法高出 6.1％，并显著减少了时间开销。此外，实验结果表明 LEAP 可以生成更具传递性的测试用例，并显著提高基于 DNN 的系统的鲁棒性。

Aug, 2023

PONE：一种新型开放域生成对话系统自动评估度量

通过对三类自动评估方法的系统比较，本文认为基于学习的指标是评估开放领域生成对话系统最有效的方法。为了解决由于负采样机制导致的数据集不平衡和低质问题，本文提出了一种新的基于学习的评估指标 PONE，并经过实验证明，在使用增强的正样本和有价值的负样本后，可以显著提高与人类判断的相关性，平均相关性提高达 13.18％。

Apr, 2020

带自然语言先验的主动示范编程

APEL 是一种基于自然语言表述的新型框架，用于间接注释可执行的含义表达式，如 SQL 程序，其中包含由群众智慧注释产生的程序候选列表和输入数据库合成方法。

May, 2022

Tomayto, Tomahto. 问题回答评估中超越令牌级别答案等价性

这篇研究论文通过定量分析 token-level 等价度量的局限性，提出了一个不对称的答案等价度概念，结合 BERT matching 算法，其结果比传统的 F1 方法更为准确，可用于问题回答的实际应用中来找到最小准确预测集。

Feb, 2022

面向方向的观点对齐网络用于基于方面的情感分类

提出一个新颖的 Aspect-oriented Opinion Alignment Network (AOAN) 来捕捉意见词与对应方面之间的上下文关联。该模型通过引入一个邻近跨度增强模块来突出揭示邻近词汇和给定方面的各种组合，并设计了一个多透视度的注意机制来根据给定方面对齐相关意见信息。对三个基准数据集的广泛实验表明，该模型达到了最好的结果。

Aug, 2023

CFMatch: 自动化答案等效评估与专家判断在开放域问答中的对齐

通过采用职业人员 QA 竞赛来评估机器 QA 中答案的正确性，结合标准评估和一种更高效、稳健、轻量级的基于偏差 AE 分类器的匹配方法（CFMatch，小于 1 MB），培训和验证以更准确地评估答案的正确性，使得 QA 能够进一步发展。

Jan, 2024

AIONER：基于深度学习的全能式方案的生物医学命名实体识别

本研究提出了一种使用外部标记资源来改善泛化能力的全新生物医学命名实体识别方案，基于深度学习的 AIONER 工具比多任务学习等现有方法更为有效、稳健，能够识别训练数据中未出现的实体类型，并具有大规模处理生物医学文本的优势。

Nov, 2022

LUNA：语言理解和自然度评估框架

LUNA 是一个自然语言生成模型评估工具，通过引入 20 个不同的评估指标，基于参考依赖性和文本表示的类型进行分类。其设计简单易扩展，并提供了一个用户友好的评估生成文本的工具。

Jan, 2024

为单元测试用例学习有意义的断言语句

利用神经机器翻译技术的 Atlas，能够自动生成恰当的断言语句来评估主方法的正确性，可作为自动生成测试用例技术的补充和开发人员的代码补全支持。

Feb, 2020

RoMe: 一种稳健的自然语言生成度量标准

本文提出了一种有效的自动评估度量 RoMe，包括多个自然语言生成核心方面，如语言能力、句法和语义变化，通过基于自我监督神经网络的语义相似性等语言特征，结合树编辑距离和语法可接受性来评估生成句子的整体质量，并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明，在评估多个 NLG 任务生成的句子方面，RoMe 与人类判断的相关性比最先进的度量更强。

Mar, 2022