近似负样本区分：给人工评价数据集注入新生命

EMNLPMay, 2022

近似负样本区分：给人工评价数据集注入新生命

Near-Negative Distinction: Giving a Second Life to Human Evaluation Datasets

Philippe Laban, Chien-Sheng Wu, Wenhao Liu, Caiming Xiong

TL;DR本文提出了一种名为 Near-Negative Distinction（NND）的新颖和简单的自动评估方法，通过重新利用之前人类注释来建立 NLG 模型的偏好，我们发现 NND 在三个 NLG 任务（问题生成，问题回答和摘要）中取得了比标准 NLG 评估指标更高的与人工判断的相关性，这表明 NND 可以给人类注释提供第二次生命并提供低成本的 NLG 评估。

Abstract

Precisely assessing the progress in natural language generation (NLG) tasks is challenging, and human evaluation to establish a preference in a model's output over another is often necessary. However, human evaluation is usually costly, difficult to reproduce, and non-reusable. In this

natural language generation automatic evaluation near-negative distinction nlg model human annotations

发现论文，激发创造

人还是机器？自动化自然语言生成文本人类相似性评估

本文提出了一种基于大型预训练语言模型和概率分布的区分程序来自动评估自然语言生成方法产生的文本样本的人类相似度分数，与人类判断的自动评估进行了验证。

Jun, 2020

评判评判者：针对在线评论生成的神经语言模型的大规模评估研究

本文研究自然语言生成的评估方法，并通过自动化评估和人工评估的比较，发现词汇重叠是自然语言生成的较好评估指标，而人工评估与自动化评估在排名上存在较大差异，因此呼吁重新考虑自然语言生成的评估目标。

Jan, 2019

学习比较，提高开放领域自然语言生成模型的训练和评估

本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型，同时还提出了使用技能等级系统来评估模型质量，并将其作为性能指标，在训练过程中进行优化。实验结果表明，该方法与人类偏好的相关性更高，训练成果更优秀，有效性得到了证明。

Feb, 2020

人工评估指南中对漏洞的定义和检测：实现可靠的自然语言生成评估的初步研究

通过收集从现有论文中提取的指南注释以及由大型语言模型（LLMs）生成的指南注释，我们提出了第一个人工评估指南数据集，并引入了八种漏洞的分类和组成评估指南的原则。此外，我们还探索了使用 LLMs 检测指南漏洞的方法，并提供了一套增强人工评估可靠性的建议。

Jun, 2024

旨在要求泛化的 GAN 基准测试

通过转向神经网络分歧（NND），本文实现了一个基于样本的黑盒测量度量图像生成的多样性、采样质量和泛化。

Jan, 2020

使用可信的负面样本评估和改进聊天机器人文本分类的数据质量

我们描述并验证了一种基于交叉验证的度量标准，用于评估小型、不平衡的自然语言数据集在聊天机器人设计中的应用，该度量标准利用负样例在文本分类的评估中，并满足可行性、可比较和模型不可知等三个要求。

Jun, 2019

消除否定性：通过分布偏好优化实现无需人工正例样本的对齐

通过利用人工标注的负样本，提出了一种基于分布差异优化的方法来使大型语言模型朝向人类偏好对齐，以减少有害信息的生成。实验证明该方法在生成质量、有害信息数量和训练稳定性方面均优于最新基线模型。

Mar, 2024

远程监督关系提取数据集：实现准确和一致的评估

本文使用深度神经网络进行了遥感监督关系提取，通过建立新的人工标注测试数据集 NYT-H，对遥感监督法进行了更为准确和一致的评估，并发现与使用 DS 标注测试数据的对比系统的排名列表有所不同，说明人工标注数据对于遥感监督关系提取的评估是必要的。

Oct, 2020

重塑自然语言推理中的中立性：没有强烈的一方或另一方情感

本文指出自然语言推理领域在评估模型推理推理能力方面所使用的标准三分法存在着缺陷，尤其是与人类推理过程的案例感知能力的差异。作者还发现现有的自然语言推理标注数据集中的一种中性标签处于低效的状态，且存在解释不一致的情况，而至少一种重要的得分中性标签经常被忽略。我们比较了处理不同标注者之间的分歧的方法，并确定了最近的自然语言推理（NLI）数据集中设计了一个基于有问题的形式操作的注释者研究的缺陷。本文的发现强调了需要更加精确评估框架来评估 NLI，我们希望引发 NLP 社区的进一步讨论和行动。

Jun, 2023

对抗性自然语言推理：自然语言理解新基准

介绍了一个通过迭代对抗人与模型的程序收集的大规模 NLI 基准数据集，并展示了训练模型在这个新数据集上将导致在各种流行的 NLI 基准测试中的最新性能，同时还带来了更困难的挑战。数据收集方法可以在永不停止的学习场景中应用，成为 NLU 的移动目标，而不是一个很快就会饱和的静态基准测试集。

Oct, 2019