大型语言模型能否生成突出的负面陈述？

May, 2023

大型语言模型能否生成突出的负面陈述？

Can large language models generate salient negative statements?

Hiba Arnaout, Simon Razniewski

TL;DR本文通过使用零样本和有向样本的方式，比较了大型语言模型、基于文本提取和基于知识图谱的负向语句生成等不同方法在生成关于不同主题下实体的正确性和显著性方面的表现，结果显示有向样本有利于提高生成负向语句的质量，但大型语言模型在理解负向语句的真实性方面仍然存在困难。

Abstract

We examine the ability of large language models (LLMs) to generate salient (interesting) negative statements about real-world entities; an emerging research topic of the last few years. We probe the LLMs using zero- and k-shot unconstrained →

large language models negation generation probes factuality correctness

发现论文，激发创造

了解 LLMs 不知道的内容：一种简单有效的自我检测方法

提出了一种新颖的自我检测方法，通过扩展问题的文本表达并收集相应的答案，检测大型语言模型（LLMs）是否会产生虚假回答，证明了该方法在 LLM 效果上的有效性。

Oct, 2023

大型语言模型的零样本假设提出者

大型语言模型 (LLMs) 可以作为催化剂引发新的科学发现，并指导进一步的探索。

Nov, 2023

这不是一个数据集：一个用于挑战大规模语言模型的大规模否定评估基准

大型语言模型在理解否定时表现亚优，本研究通过引入一个大规模自动生成的常识知识数据集，涉及到约 40 万个描述性句子，其中大约 2/3 的句子包含否定形式，使用零样本学习方法对现有开源语言模型进行测试，结果表明尽管模型对于肯定的句子有较高准确性，但在否定句子方面存在困难，缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能，但在处理否定方面仍然存在泛化能力不足的问题，突显出大型语言模型在否定理解和泛化方面仍面临挑战。

Oct, 2023

你所言非虚！大型语言模型对负面常识知识表现过于积极

本研究探讨了大型语言模型在处理负常识知识时的能力，通过设计了一系列的受限关键词句子生成任务和布尔问答任务，发现大型语言模型在生成句子方面存在信仰冲突现象，即难以生成基于负常识的句子，但能够正确回答极性的是或否问题。我们的进一步分析表明，语言模型预训练中的统计和否定偏见报告是这种冲突的原因。

May, 2023

语言模型不抗拒否定：对否定基准测试的分析

本研究针对 LLMs，比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型，通过实验验证了它们在处理否定句时的局限性，包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。

Jun, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

探索和解决涉及否定的 LMs 中的幻觉问题

研究了大型语言模型中幻觉问题中否定的影响，发现在涉及否定的任务中，开源最先进的大型语言模型在虚构上存在严重的缺点，提出了多种减轻这些幻觉的策略并展示了它们的影响。

Jun, 2024

大型语言模型作为反事实生成器：优缺点

本研究探究了大型语言模型（LLMs）进行反事实生成和数据增强的能力，发现 LLMs 很有效的进行反事实生成，但因为自身限制和缺少实用逻辑指导，在某些复杂任务上表现欠佳。提供准确的任务定义和详细的操作步骤对于在 LLMs 中生成反事实具有决定性影响。同时，研究还证明了 LLMs 可能在缺乏合理演示的情况下生成合理的反事实，说明演示主要用于规范输出格式。因此，基于 LLMs 进行数据增强来增强 SLMs 是一种非常有前景的研究和应用方向。

May, 2023

大型语言模型是否真正理解提示语？一个否定提示案例研究

本研究发现，在处理否定提示的任务时，语言模型的大小与其零 - shot 表现之间不存在按比例的关系，而是一种倒数的规律，并指出目前的 LMs 和方法存在重要限制。作者呼吁学术界开发新的方法来开发真正遵循给定指令的 LMs，并提供了探索否定提示的代码和数据集。

Sep, 2022

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023