语言生成系统的否定感知评估

Jul, 2023

This is not correct! Negation-aware Evaluation of Language Generation Systems

Miriam Anschütz, Diego Miguel Lozano, Georg Groh

TL;DR本研究旨在改进语言模型对否定词的敏感性，提出了一种基于否定词的 BLEURT 评估指标 NegBLEURT，并通过设计基于规则的句子否定工具和创建 CANNOT 数据集进行模型优化。结果表明，经过优化的模型在否定句上表现优于现有的评估指标，并且在其他扰动上保持基准模型的性能。

Abstract

Large language models underestimate the impact of negations on how much they change the meaning of a sentence. Therefore, learned evaluation metrics based on these models are insensitive to negations. In this paper, we propose negbleurt, a →

negation evaluation metric negbleurt sentence transformer perturbations

发现论文，激发创造

语言模型不抗拒否定：对否定基准测试的分析

本研究针对 LLMs，比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型，通过实验验证了它们在处理否定句时的局限性，包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。

Jun, 2023

这不是一个数据集：一个用于挑战大规模语言模型的大规模否定评估基准

大型语言模型在理解否定时表现亚优，本研究通过引入一个大规模自动生成的常识知识数据集，涉及到约 40 万个描述性句子，其中大约 2/3 的句子包含否定形式，使用零样本学习方法对现有开源语言模型进行测试，结果表明尽管模型对于肯定的句子有较高准确性，但在否定句子方面存在困难，缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能，但在处理否定方面仍然存在泛化能力不足的问题，突显出大型语言模型在否定理解和泛化方面仍面临挑战。

Oct, 2023

理解非理解：在语言模型中建模否定

本文针对自然语言中否定句的建构，借助负面通用语句的反向学习目标，优化了 BERT 语言模型，将 negated LAMA 数据集的平均 top1 错误率降至 4％，并在 negated NLI 基准测试中看到了一些改进。

May, 2021

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023

BLEURT: 学习文本生成的鲁棒度量

提出了一种基于 BERT 的学习评估指标 BLEURT，可以通过数千个训练实例建模人类判断，并使用数百万个合成实例的新型预训练方案来帮助模型泛化，提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。

Apr, 2020

神经自然语言推断模型部分嵌入了词汇蕴含和否定理论

本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用，并提出了一个新的自然数据集 MoNLI，其中集中了词汇蕴涵和否定的相关内容，通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果，同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。

Apr, 2020

学习指标的神经机器翻译奖励优化

研究探讨了基于模型衡量 BLEURT 度量标准是否有益于优化 NMT 并提出了一种基于对比分裂损失的奖励优化方法，结果显示 BLEURT 的奖励优化能够较大幅度提高度量分数，并且人类评估结果显示使用 BLEURT 训练的模型提高了翻译的充分性和覆盖性。

Apr, 2021

NegBERT：一种用于否定识别和范围解析的迁移学习方法

本文探讨将迁移学习应用于处理生物医学领域的否定句及其范围分析问题，分析使用 BERT 作为模型的决策选择，并在 3 个数据集上获得了优秀的结果，超过了之前的最佳系统，其中包括 BioScope Corpus，Sherlock Dataset 和 SFU Review Corpus。我们还分析了模型在未经训练的数据集上的普适性。模型的令人满意的性能表明，迁移学习是解决生物医学领域问题的一种强大手段。

Nov, 2019

准确评估 GAN 在语言生成中的性能

本文讨论了用于语言生成的生成对抗网络 (GANs) 模型的评估指标问题，认为现有的评估指标无法全面准确地反映模型更真实的表现，提出了一些更适合从质量和多样性方面评估 GAN 模型的新指标，并通过实验证明了相比传统语言模型 (LM)，目前的 GAN 模型在语言生成方面的表现并没有明显优势。

Jun, 2018

为何我们需要新的自然语言生成评价指标

本文探究了 NLG 评估中常用的自动化评估方法的局限性，并提出了一种系统和数据独立的新型评价方法，包括先进的基于词汇和基于语法的度量。实验证明，这些方法并不能完全反映人的判断，且表现受到数据与系统的影响。但是，自动评估仍可支持系统的开发，发现系统表现不佳的问题。

Jul, 2017