大型语言模型是零样本学习者

Jan, 2024

Large Language Models are Null-Shot Learners

PDF

Pittawat Taveekitworachai, Febri Abdullah, Ruck Thawonmas

TL;DR通过使用不存在于上下文提供的信息指导大型语言模型利用幻觉来执行任务，在大多数数据集中提高性能，并检测存在于不同模型的幻觉程度。

Abstract

This paper presents null-shot prompting. null-shot prompting exploits hallucination in →

null-shot prompting hallucination large language models performance improvement benchmarking datasets

发现论文，激发创造

零样本多任务幻觉检测

在这项研究中，我们正式定义了虚构，并提出了一种在零镜头环境中定量检测虚构的框架，利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度，在模型无关环境中实现了 0.61 的准确度。值得注意的是，我们的解决方案保持了计算效率，比其他现有方法需要更少的计算资源，符合轻量化和压缩模型的趋势。

Mar, 2024

大型语言模型的零资源幻觉预防

通过引入一种名为【自我检测】的新技术，本研究提出了一种预防性策略来减少大型语言模型中的 “幻觉” 现象，实验证明该技术在幻觉检测方面表现优异，对于提高语言助手的可靠性、适用性和解释性具有重要意义。

Sep, 2023

大型语言模型是零样本推理器

该研究发现预训练的大型语言模型可以成为良好的零样本推理器，提出了一种零样本的 CoT 方法，将其用于多种复杂的推理任务并取得了显著的性能提升。

May, 2022

推理任务中大型语言模型产生幻觉的来源

该论文通过对多个大型语言模型的行为研究发现，训练数据的记忆和频率偏好是导致生成式大型语言模型产生幻觉的两个主要因素，这些模型在自然语言推断等应用任务中表现出明显的问题。

May, 2023

使用带标记的上下文提示捕捉 LLM 幻觉

本文提出了一种新颖的方法来识别和标记 LLMs perform out of knowledge 的情况，并确保用户获得准确的信息。通过使用上下文和嵌入标签，可以成功地消除生成语言模型中的幻觉。在对测试生成引擎的问题提示进行上下文基线幻觉频率时，观察到了整体幻觉的显着减少。

Jun, 2023

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023

基于幻觉增强对比学习的多模态大型语言模型

本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题，并通过引入对比学习的方法，在多个基准测试中证明了减少幻觉和提高性能的有效性。

Dec, 2023

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

段落级幻觉检测的新基准与反向验证方法

本研究提出了一种基于反向验证的自检方法，以零资源方式自动检测事实错误，并构建了一个基于 ChatGPT 生成的、由人工注释的幻觉检测基准，在段落级别进行研究和评估不同方法，揭示了零资源方法的共同局限。

Oct, 2023

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023