Jul, 2024

长文问答中细粒度的幻觉检测与缓解

TL;DR这篇论文介绍了HalucQuestQA,它是第一个具有本地化错误注释的幻觉数据集,用于人类编写和模型生成的长篇问答答案。研究人员通过专家注解员,以及对698个问答对和4.7k个范围级别错误注释进行了五种不同错误类型的全面分析。他们训练了一个自动反馈模型,预测具有不完整信息的错误范围并提供相关解释。最后,他们提出了一种基于提示的方法,Error-informed refinement,利用从学习到的反馈模型中的信号来改进生成的答案,从而减少幻觉并提高答案质量。此外,人类发现我们的方法生成的答案全面且更受青睐(84%),相比基准答案。