使用微调和上下文学习评估语言模型中的否定推理能力

May, 2023

使用微调和上下文学习评估语言模型中的否定推理能力

ScoNe: Benchmarking Negation Reasoning in Language Models With Fine-Tuning and In-Context Learning

Jingyuan Selena She, Christopher Potts, Samuel R. Bowman, Atticus Geiger

TL;DR本文介绍了 Scoped Negation NLI 基准测试，用于评估自然语言模型处理否定语义组合的能力，其中用到了一系列例子和策略，最后发现 InstructGPT 模型在句子补全测试中表现出了正确的否定语义推理能力，但在处理预训练体系外的样例时表现无法胜任。

Abstract

A number of recent benchmarks seek to assess how well models handle natural language negation. However, these benchmarks lack the controlled example paradigms that would allow us to infer whether a model had learned how negation morphemes semantically scope. To fill these analytical gaps, we present the →

natural language negation scoped negation nli fine-tuning in-context learning negation reasoning

发现论文，激发创造

神经自然语言推断模型部分嵌入了词汇蕴含和否定理论

本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用，并提出了一个新的自然数据集 MoNLI，其中集中了词汇蕴涵和否定的相关内容，通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果，同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。

Apr, 2020

NegBERT：一种用于否定识别和范围解析的迁移学习方法

本文探讨将迁移学习应用于处理生物医学领域的否定句及其范围分析问题，分析使用 BERT 作为模型的决策选择，并在 3 个数据集上获得了优秀的结果，超过了之前的最佳系统，其中包括 BioScope Corpus，Sherlock Dataset 和 SFU Review Corpus。我们还分析了模型在未经训练的数据集上的普适性。模型的令人满意的性能表明，迁移学习是解决生物医学领域问题的一种强大手段。

Nov, 2019

另一种否定基准测试：NaN-NLI 分层否定测试套件

本文介绍了一种自然语言推理测试套件，以探索自然语言处理方法的能力，理解子句否定。该测试套件包含基于严格的语言学框架进行的否定类型和构造的注释，以及用于构造假设的操作。作者使用预训练语言模型进行实验，证明了此测试套件比现有的侧重于否定的基准更具挑战性，并展示了作者的注释如何支持对当前自然语言推理能力在否定和量化方面的更深入理解。

Oct, 2022

跨语言否定范围检测的神经网络

本文研究了如何使用跨语言的单词嵌入或通用依存关系，在中文数据集上测试神经模型以检测否定范围，并发现即使在单语环境中，建模语法仍然很有帮助，然而跨语言单词嵌入的帮助相对较小，分析了这一任务仍然存在困难的情况。

Oct, 2018

通过语义片段探究自然语言推理模型

通过使用语义片段，作者发现目前自然语言理解领域最先进的模型在布尔协调、量化、条件、比较和单调性推理等方面表现不佳，在这些问题上进行微调，BERT-based 模型可以掌握所有逻辑和单调性片段，同时保持其在已有 NLI 基准测试的性能。

Sep, 2019

更大的探针讲述了不同的故事：通过上下文学习扩展心理语言学数据集

本研究介绍了两个新的数据集（NEG-1500-SIMP 和 ROLE-1500），并使用 GPT3 对其进行了扩展，以用作语言模型探测的基准测试。结果表明，较小规模的测试集可能会对研究结论产生影响，同时我们发现模型的性能受否定词的影响较大。

Mar, 2023

这不是一个数据集：一个用于挑战大规模语言模型的大规模否定评估基准

大型语言模型在理解否定时表现亚优，本研究通过引入一个大规模自动生成的常识知识数据集，涉及到约 40 万个描述性句子，其中大约 2/3 的句子包含否定形式，使用零样本学习方法对现有开源语言模型进行测试，结果表明尽管模型对于肯定的句子有较高准确性，但在否定句子方面存在困难，缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能，但在处理否定方面仍然存在泛化能力不足的问题，突显出大型语言模型在否定理解和泛化方面仍面临挑战。

Oct, 2023

语言模型不抗拒否定：对否定基准测试的分析

本研究针对 LLMs，比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型，通过实验验证了它们在处理否定句时的局限性，包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。

Jun, 2023

一种多级有监督对比学习框架用于低资源自然语言推断

本文提出了一种多级有监督对比学习框架 MultiSCL，该框架使用句子级和对级对比学习目标，在低资源自然语言推理任务中区分不同分类的句对。MultiSCL 采用数据增强模块和交叉注意力模块来获取对级表示，经实验证明，在低资源设置中，MultiSCL 的准确率比其他模型平均高 3.1％，且在文本分类的跨域任务中优于以前的最新方法。

May, 2022

重新思考生成式命名实体识别的负实例

通过引入负实例并采用分层匹配算法，本研究在大型语言模型上实现了对命名实体识别任务的改进，提出了改进的零样本性能的生成式 NER 系统 GNER。

Feb, 2024