语言模型不抗拒否定：对否定基准测试的分析

Jun, 2023

语言模型不抗拒否定：对否定基准测试的分析

Language models are not naysayers: An analysis of language models on negation benchmarks

Thinh Hung Truong, Timothy Baldwin, Karin Verspoor, Trevor Cohn

TL;DR本研究针对 LLMs，比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型，通过实验验证了它们在处理否定句时的局限性，包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。

Abstract

negation has been shown to be a major bottleneck for masked language models, such as BERT. However, whether this finding still holds for larger-sized →

negation masked language models auto-regressive language models llms language understanding

发现论文，激发创造

这不是一个数据集：一个用于挑战大规模语言模型的大规模否定评估基准

大型语言模型在理解否定时表现亚优，本研究通过引入一个大规模自动生成的常识知识数据集，涉及到约 40 万个描述性句子，其中大约 2/3 的句子包含否定形式，使用零样本学习方法对现有开源语言模型进行测试，结果表明尽管模型对于肯定的句子有较高准确性，但在否定句子方面存在困难，缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能，但在处理否定方面仍然存在泛化能力不足的问题，突显出大型语言模型在否定理解和泛化方面仍面临挑战。

Oct, 2023

理解非理解：在语言模型中建模否定

本文针对自然语言中否定句的建构，借助负面通用语句的反向学习目标，优化了 BERT 语言模型，将 negated LAMA 数据集的平均 top1 错误率降至 4％，并在 negated NLI 基准测试中看到了一些改进。

May, 2021

大型语言模型能否生成突出的负面陈述？

本文通过使用零样本和有向样本的方式，比较了大型语言模型、基于文本提取和基于知识图谱的负向语句生成等不同方法在生成关于不同主题下实体的正确性和显著性方面的表现，结果显示有向样本有利于提高生成负向语句的质量，但大型语言模型在理解负向语句的真实性方面仍然存在困难。

May, 2023

基于 xNot360 数据集的 GPT 负面情感检测评估分析

本研究评估了 Generative Pre-trained Transformer（GPT）模型，特别是 GPT-2、GPT-3、GPT-3.5 和 GPT-4 的否定检测性能，结论显示这些模型在否定检测中性能差异显著，GPT-4 的性能最优，GPT-3.5 则显示出明显的性能下降，并强调了在医疗、科学、法律等高风险领域合理逻辑的重要性

Jun, 2023

语言生成系统的否定感知评估

本研究旨在改进语言模型对否定词的敏感性，提出了一种基于否定词的 BLEURT 评估指标 NegBLEURT，并通过设计基于规则的句子否定工具和创建 CANNOT 数据集进行模型优化。结果表明，经过优化的模型在否定句上表现优于现有的评估指标，并且在其他扰动上保持基准模型的性能。

Jul, 2023

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

探索和解决涉及否定的 LMs 中的幻觉问题

研究了大型语言模型中幻觉问题中否定的影响，发现在涉及否定的任务中，开源最先进的大型语言模型在虚构上存在严重的缺点，提出了多种减轻这些幻觉的策略并展示了它们的影响。

Jun, 2024

NevIR: 神经信息检索中的否定

该研究构建了一个主题为否定形式对神经信息检索的影响的基准测试数据集，发现跨编码器表现最好，晚交互模型次之，对数器和稀疏神经架构最差。同时研究表明，当存在否定形式时，大多数当前的信息检索模型表现相似或不佳，而本研究在对比文本数据集的继续优化和扩大模型尺寸方面，虽然提高了性能，但仍存在机器与人之间的巨大差距。

May, 2023

不是所有大型语言模型（LLM）都屈服于 “逆转诅咒”：BERT 和 GPT 模型推理能力的比较研究

在这项研究中，我们探讨了大规模语言模型在逻辑推理方面的局限性，发现 ChatGPT 等自回归解码器训练模型在 'A 是 B' 的任务中往往无法学习到 'B 是 A'，从而揭示了它们在逻辑演绎上的失败。我们的研究不仅对双向语言模型 BERT 进行了评估，发现其对逆转诅咒具有免疫能力，还探索了医学知识图谱构建中的复杂演绎推理能力。尽管在处理两个集合（并集 / 交集）的情况下编码器和解码器模型表现良好，但在涉及三个集合的操作（并集、交集的各种组合）时，它们遇到了困难。因此，选择 BERT 和 GPT 模型应该根据任务的具体要求和性质，充分利用它们在双向上下文理解和序列预测方面的优势。

Dec, 2023

大型语言模型是否真正理解提示语？一个否定提示案例研究

本研究发现，在处理否定提示的任务时，语言模型的大小与其零 - shot 表现之间不存在按比例的关系，而是一种倒数的规律，并指出目前的 LMs 和方法存在重要限制。作者呼吁学术界开发新的方法来开发真正遵循给定指令的 LMs，并提供了探索否定提示的代码和数据集。

Sep, 2022