SemEval-2024 Shared Task 6: SHROOM，一个关于幻觉和相关可观察溢出错误的共享任务

Mar, 2024

SemEval-2024 Shared Task 6: SHROOM，一个关于幻觉和相关可观察溢出错误的共享任务

SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes

Timothee Mickus, Elaine Zosa, Raúl Vázquez, Teemu Vahtola, Jörg Tiedemann...

TL;DR该论文提出了一个名为 SHROOM 的共享任务的结果，该任务侧重于检测错谬流畅的自然语言生成（NLG）系统的输出，这种过度生成的情况严重威胁到许多 NLG 应用，其中正确性通常至关重要。共享任务采用了一个新构建的数据集，包含由 5 个注释员标记的 4000 个模型输出，覆盖了机器翻译、释义生成和定义建模的 3 个自然语言处理任务，共有 58 个不同用户组成的 42 个团队参与了该共享任务，其中 27 个团队选择撰写系统描述论文。我们观察到这种方法的多个关键趋势 -- 许多参与者依赖于少数模型，并且通常依赖于用于微调的合成数据或零 - shot 提示策略。虽然大多数团队的表现超过了我们提出的基准系统，但得分最高的系统的表现仍然与对更具挑战性项目的随机处理一致。

Abstract

This paper presents the results of the SHROOM, a shared task focused on detecting hallucinations: outputs from natural language generation

hallucinations natural language generation nlg applications shared task performance

发现论文，激发创造

AILS-NTUA 参加 SemEval-2024 任务 6: 高效模型调优用于幻觉检测和分析

我们在 SemEval-2024 的 Hallucinations 和相关可观察生成错误的任务上提交了 SHROOM，要求进行流畅过度生成幻觉的二元分类。通过微调预训练模型和自然语言推理模型，并将这些模型进行集成，取得了 77.8% 和 79.9% 的准确率，相较于比赛中的顶尖结果 84.7% 和 81.3% 具有显著优势。

Apr, 2024

MALTO 参与 SemEval-2024 任务 6: 运用合成数据进行 LLM 幻觉检测

自然语言生成面临若干挑战，我们通过引入数据增强管道和投票集成来解决生成流畅但不准确以及过度依赖流畅度评测指标的问题。

Mar, 2024

SLPL SHROOM 在 SemEval-2024 任务 06 中：模型检测幻觉能力的全面研究

本研究探索了通过比较生成文本与事实参考之间的语义相似性以及互相评判的语言模型集成方法来检测虚构的方法，并指出了虚构检测的挑战以及进一步研究的必要性。

Apr, 2024

SHROOM-INDElab 在 SemEval-2024 任务 6 中的零击中和少击中基于 LLM 的幻觉检测分类

通过使用大型语言模型进行提示程序设计和上下文学习来构建大学智能数据工程实验室团队参与 SemEval-2024 任务 6 竞赛的 SHROOM-INDElab 系统，该系统在上下文特定任务、角色和目标概念的定义以及自动生成示例的基础上，扩展了对幻觉检测的分类器的先前工作，并在模型无关和模型感知的任务中获得了第四和第六的性能，与众包人工标注的验证集一致，发现零样本方法提供了比使用自动生成示例的 few-shot 方法更好的准确性。

Apr, 2024

零样本多任务幻觉检测

在这项研究中，我们正式定义了虚构，并提出了一种在零镜头环境中定量检测虚构的框架，利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度，在模型无关环境中实现了 0.61 的准确度。值得注意的是，我们的解决方案保持了计算效率，比其他现有方法需要更少的计算资源，符合轻量化和压缩模型的趋势。

Mar, 2024

SmurfCat 参加 SemEval-2024 任务 6：利用合成数据进行幻觉检测

我们在 SemEval-2024 妄想检测任务中开发了新的系统，通过比较模型预测与参考标准，使用多种基线、通过监督学习改进预训练编码器以及使用几个高性能模型的集成方法，我们介绍了三种不同的方法，表现出强大的性能指标，并通过生成额外的训练样本来增加训练数据，此外，还提供了详细的比较分析，值得注意的是，我们的首要方法在比赛的模型无关轨道中获得了可称赞的第 9 名，模型感知轨道中获得了第 17 名，突显了其有效性和潜力。

Apr, 2024

检测争议话题中检索增强生成模型中的虚构和覆盖错误

基于维基百科的中立观点原则，我们探索了一种应对 LLM 聊天机器人中有争议话题的策略：承认单一真实答案的缺失，并呈现多个观点。我们将其框架为检索增强生成，其中观点从知识库中检索出来，LLM 的任务是从给定的观点中生成流畅而忠实的回应。我们使用一种确定性的检索系统作为起点，然后关注在这种文本生成方法中出现的常见 LLM 故障模式，即幻觉和覆盖错误。我们提出并评估了三种基于（1）词重叠，（2）重要性和（3）基于 LLM 的分类器来检测这些错误的方法。我们的结果表明，即使只在合成错误上进行训练，基于 LLM 的分类器在错误检测性能上也能达到很高的水平，幻觉检测的 ROC AUC 得分为 95.3％，覆盖错误检测为 90.5％（对于明确的错误案例）。我们展示了当没有可用的训练数据时，我们的其他方法在幻觉检测（84.0％）和覆盖错误检测（85.2％）上仍然产生良好的结果。

Mar, 2024

自然语言生成中幻觉的调查

本文综述了关于深度学习在自然语言生成中出现幻觉问题的度量、缓解方法和未来方向，以及针对抽象摘要、对话生成、生成式问答、数据到文本生成、机器翻译和视觉语言生成的幻觉问题的任务特定研究进展。

Feb, 2022

幻觉排行榜 - 量化大型语言模型中的幻觉

该论文介绍了幻觉排行榜，一个旨在定量衡量和比较每个模型产生幻觉倾向的开放性倡议，通过一系列综合评估模型的基准测试，如准确性和忠实度等方面，涵盖了问答、摘要和阅读理解等不同任务，为研究人员和实践者指导选择最可靠的模型。

Apr, 2024

OPDAI 在 SemEval-2024 任务 6 中：小型 LLM 可以利用弱监督数据加速幻觉检测

该论文主要描述了一个统一的系统，用于检测 LLM 的幻觉，该系统在 SemEval-2024 任务 6 的模型不可知轨道中获得了第二名，并在模型感知轨道中取得了可观的结果。

Feb, 2024