Mar, 2024

SemEval-2024 Shared Task 6: SHROOM,一个关于幻觉和相关可观察溢出错误的共享任务

TL;DR该论文提出了一个名为 SHROOM 的共享任务的结果,该任务侧重于检测错谬流畅的自然语言生成(NLG)系统的输出,这种过度生成的情况严重威胁到许多 NLG 应用,其中正确性通常至关重要。共享任务采用了一个新构建的数据集,包含由 5 个注释员标记的 4000 个模型输出,覆盖了机器翻译、释义生成和定义建模的 3 个自然语言处理任务,共有 58 个不同用户组成的 42 个团队参与了该共享任务,其中 27 个团队选择撰写系统描述论文。我们观察到这种方法的多个关键趋势 -- 许多参与者依赖于少数模型,并且通常依赖于用于微调的合成数据或零 - shot 提示策略。虽然大多数团队的表现超过了我们提出的基准系统,但得分最高的系统的表现仍然与对更具挑战性项目的随机处理一致。