Apr, 2024

AILS-NTUA 参加 SemEval-2024 任务 6: 高效模型调优用于幻觉检测和分析

TL;DR我们在 SemEval-2024 的 Hallucinations 和相关可观察生成错误的任务上提交了 SHROOM,要求进行流畅过度生成幻觉的二元分类。通过微调预训练模型和自然语言推理模型,并将这些模型进行集成,取得了 77.8% 和 79.9% 的准确率,相较于比赛中的顶尖结果 84.7% 和 81.3% 具有显著优势。