AILS-NTUA 参加 SemEval-2024 任务 6: 高效模型调优用于幻觉检测和分析

Apr, 2024

AILS-NTUA 参加 SemEval-2024 任务 6: 高效模型调优用于幻觉检测和分析

AILS-NTUA at SemEval-2024 Task 6: Efficient model tuning for hallucination detection and analysis

Natalia Griogoriadou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou

TL;DR我们在 SemEval-2024 的 Hallucinations 和相关可观察生成错误的任务上提交了 SHROOM，要求进行流畅过度生成幻觉的二元分类。通过微调预训练模型和自然语言推理模型，并将这些模型进行集成，取得了 77.8% 和 79.9% 的准确率，相较于比赛中的顶尖结果 84.7% 和 81.3% 具有显著优势。

Abstract

In this paper, we present our team's submissions for semeval-2024 Task-6 - shroom, a Shared-task on hallucinations and Related Observable

semeval-2024 shroom hallucinations overgeneration ensemble

发现论文，激发创造

SemEval-2024 Shared Task 6: SHROOM，一个关于幻觉和相关可观察溢出错误的共享任务

该论文提出了一个名为 SHROOM 的共享任务的结果，该任务侧重于检测错谬流畅的自然语言生成（NLG）系统的输出，这种过度生成的情况严重威胁到许多 NLG 应用，其中正确性通常至关重要。共享任务采用了一个新构建的数据集，包含由 5 个注释员标记的 4000 个模型输出，覆盖了机器翻译、释义生成和定义建模的 3 个自然语言处理任务，共有 58 个不同用户组成的 42 个团队参与了该共享任务，其中 27 个团队选择撰写系统描述论文。我们观察到这种方法的多个关键趋势 -- 许多参与者依赖于少数模型，并且通常依赖于用于微调的合成数据或零 - shot 提示策略。虽然大多数团队的表现超过了我们提出的基准系统，但得分最高的系统的表现仍然与对更具挑战性项目的随机处理一致。

Mar, 2024

SLPL SHROOM 在 SemEval-2024 任务 06 中：模型检测幻觉能力的全面研究

本研究探索了通过比较生成文本与事实参考之间的语义相似性以及互相评判的语言模型集成方法来检测虚构的方法，并指出了虚构检测的挑战以及进一步研究的必要性。

Apr, 2024

MALTO 参与 SemEval-2024 任务 6: 运用合成数据进行 LLM 幻觉检测

自然语言生成面临若干挑战，我们通过引入数据增强管道和投票集成来解决生成流畅但不准确以及过度依赖流畅度评测指标的问题。

Mar, 2024

SHROOM-INDElab 在 SemEval-2024 任务 6 中的零击中和少击中基于 LLM 的幻觉检测分类

通过使用大型语言模型进行提示程序设计和上下文学习来构建大学智能数据工程实验室团队参与 SemEval-2024 任务 6 竞赛的 SHROOM-INDElab 系统，该系统在上下文特定任务、角色和目标概念的定义以及自动生成示例的基础上，扩展了对幻觉检测的分类器的先前工作，并在模型无关和模型感知的任务中获得了第四和第六的性能，与众包人工标注的验证集一致，发现零样本方法提供了比使用自动生成示例的 few-shot 方法更好的准确性。

Apr, 2024

SmurfCat 参加 SemEval-2024 任务 6：利用合成数据进行幻觉检测

我们在 SemEval-2024 妄想检测任务中开发了新的系统，通过比较模型预测与参考标准，使用多种基线、通过监督学习改进预训练编码器以及使用几个高性能模型的集成方法，我们介绍了三种不同的方法，表现出强大的性能指标，并通过生成额外的训练样本来增加训练数据，此外，还提供了详细的比较分析，值得注意的是，我们的首要方法在比赛的模型无关轨道中获得了可称赞的第 9 名，模型感知轨道中获得了第 17 名，突显了其有效性和潜力。

Apr, 2024

零样本多任务幻觉检测

在这项研究中，我们正式定义了虚构，并提出了一种在零镜头环境中定量检测虚构的框架，利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度，在模型无关环境中实现了 0.61 的准确度。值得注意的是，我们的解决方案保持了计算效率，比其他现有方法需要更少的计算资源，符合轻量化和压缩模型的趋势。

Mar, 2024

OPDAI 在 SemEval-2024 任务 6 中：小型 LLM 可以利用弱监督数据加速幻觉检测

该论文主要描述了一个统一的系统，用于检测 LLM 的幻觉，该系统在 SemEval-2024 任务 6 的模型不可知轨道中获得了第二名，并在模型感知轨道中取得了可观的结果。

Feb, 2024

MetaCheckGPT：使用 LLM 不确定性和元模型的多任务幻觉检测

我们提出了一个基于大语言模型 (LLMs) 的元回归框架，用于模型评估和集成，在 SemEval-2024 Task 6 竞赛中取得最高得分。我们的方法利用多样的 LLMs 中存在的不确定信号更可靠地检测幻觉。

Apr, 2024

用合成任务教授语言模型减少产生幻觉

通过合成任务对大型语言模型进行系统信息优化，可降低其在真实任务中的错误生成，从而减少幻觉现象。

Oct, 2023

检测条件神经序列生成中产生的虚假内容

本文介绍了一种使用预训练模型和人工标注数据来检测神经序列模型输出中的虚构内容，并在机器翻译和摘要生成等任务中获得显著效果的方法。

Nov, 2020