基于 xNot360 数据集的 GPT 负面情感检测评估分析

Jun, 2023

基于 xNot360 数据集的 GPT 负面情感检测评估分析

A negation detection assessment of GPTs: analysis with the xNot360 dataset

Ha Thanh Nguyen, Randy Goebel, Francesca Toni, Kostas Stathis, Ken Satoh

TL;DR本研究评估了 Generative Pre-trained Transformer（GPT）模型，特别是 GPT-2、GPT-3、GPT-3.5 和 GPT-4 的否定检测性能，结论显示这些模型在否定检测中性能差异显著，GPT-4 的性能最优，GPT-3.5 则显示出明显的性能下降，并强调了在医疗、科学、法律等高风险领域合理逻辑的重要性

Abstract

negation is a fundamental aspect of natural language, playing a critical role in communication and comprehension. Our study assesses the negation detection performance of →

negation generative pre-trained transformer natural language understanding capabilities xnot360 dataset logical reliability

发现论文，激发创造

语言模型不抗拒否定：对否定基准测试的分析

本研究针对 LLMs，比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型，通过实验验证了它们在处理否定句时的局限性，包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。

Jun, 2023

更大的探针讲述了不同的故事：通过上下文学习扩展心理语言学数据集

本研究介绍了两个新的数据集（NEG-1500-SIMP 和 ROLE-1500），并使用 GPT3 对其进行了扩展，以用作语言模型探测的基准测试。结果表明，较小规模的测试集可能会对研究结论产生影响，同时我们发现模型的性能受否定词的影响较大。

Mar, 2023

利用针对否定的预训练来改善否定检测

本文提出了一种新的针对否定语的预训练策略，包括有针对性的数据增强和否定掩蔽，以更好地将否定信息纳入语言模型。在常见的基准测试中进行的广泛实验显示，我们提出的方法提高了否定检测性能和泛化能力，超过了强基线 NegBERT (Khandewal 和 Sawant, 2020)。

May, 2022

这不是一个数据集：一个用于挑战大规模语言模型的大规模否定评估基准

大型语言模型在理解否定时表现亚优，本研究通过引入一个大规模自动生成的常识知识数据集，涉及到约 40 万个描述性句子，其中大约 2/3 的句子包含否定形式，使用零样本学习方法对现有开源语言模型进行测试，结果表明尽管模型对于肯定的句子有较高准确性，但在否定句子方面存在困难，缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能，但在处理否定方面仍然存在泛化能力不足的问题，突显出大型语言模型在否定理解和泛化方面仍面临挑战。

Oct, 2023

黑盒分析：法律文本蕴含任务中的 GPTs 跨时限研究

对 COLIEE 任务 4 数据集中 Heisei 18（2006 年）到 Reiwa 3（2021 年）的日本法律文本具体判断能力的 GPT-3.5（ChatGPT）和 GPT-4 模型的分析揭示了模型在处理法律文本具体性任务方面的优点、缺点和性能模式，为未来优化 GPT-based 模型并在法律信息提取和具体性应用中成功采用奠定了基础。

Sep, 2023

神经机器翻译中否定的再探讨

通过对神经机器翻译的信息流分析，我们在英 - 德和英 - 中语言对上实验并对否定语的翻译进行自动和手动评估，找到了 NMT 模型和翻译方向之间性能的变化，并发现本文所考虑的 NMT 模型最大的翻译错误类型是低估，这与以前在统计机器翻译中观察到的更多样化的错误类型相反。

Jul, 2021

自然语言理解语料库中否定语分析

本文研究分析了 6 个自然语言理解的任务中，八个流行的语料库中的否定词的使用情况，指出这些语料库中的否定词较少且不重要，而最新的 transformers 在处理含有重要的否定词的实例时表现不佳，因此需要新的包含否定词的语料库来解决自然语言理解任务中的问题。

Mar, 2022

G3Detector：通用 GPT 生成文本检测器

本篇研究针对近年来大模型语言技术的快速普及及不断提高的适应性，提出了具有高效性和稳定性的人造文本检测方法。该方法能够辨别多种模型和解码策略生成的人造文本，并具有抗检测的能力。此外，研究还对机器生成文本检测机制的鲁棒性做出了贡献，揭示了在使用大规模语言模型技术时存在的社会和伦理问题，并提出了相应的解决方案。

May, 2023

Transformer 语言模型中的负面情感处理

通过将问题转化为自然语言推理任务，探索使用 negation 的 transformer-based 语言模型推理的能力，并通过一些预测问题，揭示它们处理不同类型 negation 的不同方式。

Apr, 2022

使用大型语言模型的否定互补常识

本文研究了 GPT-3 等较大型语言模型在否定对比问题上的表现。我们提出了一种方法来改善模型在否定对比场景下的表现，该方法胜过了来自 GPT-3 的少样本生成，突出了研究大型语言模型在否定对比问题中响应的重要性。

Jul, 2023