Lynx: 开源的幻觉评估模型
基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉-语言模型 (LVLMs) 进行幻觉评估的方法,并分析了导致幻觉的因素,并提供了缓解幻觉问题的建议。
Aug, 2023
该论文提出了AutoHall方法,通过自相矛盾的方式自动构建模型特定的幻觉数据集,然后基于这些数据集实现了无资源和黑盒幻觉检测方法,对开源和闭源大型语言模型进行了实验证明,在幻觉检测性能上优于现有基准模型,并且发现了不同模型之间的幻觉比例和类型的差异。
Sep, 2023
本文介绍了用于分析不同领域和任务中基于检索增强生成(RAG)大型语言模型(LLMs)中词级幻觉的RAGTruth,这是一个用于测量幻觉程度的基准数据集,并评估了多种现有的幻觉检测方法,在幻觉检测方面,通过使用高质量的数据集如RAGTruth,可以对相对较小的LLM进行微调,并实现与使用GPT-4等最先进的大型语言模型的基于提示的方法相媲美的性能水平。
Dec, 2023
大型语言模型(如ChatGPT、Bard和Llama)在不同领域的应用中取得了显著的成功。然而,虚假生成是限制其广泛应用的关键问题。本报告意在综述虚假生成检测和虚假生成减轻的现有文献,旨在为对大型语言模型和将其应用于实际任务感兴趣的工程师和研究人员提供参考。
Jan, 2024
多模态大语言模型(MLLMs)在全方位任务中取得了显著进展,但幻觉问题成为其关键问题之一。我们的研究扩展了对幻觉检测的调查范围,并提出了一个新颖的元评估基准(MHaluBench),以促进幻觉检测方法的发展。我们还推出了一个新颖的统一多模态幻觉检测框架(UNIHD),利用一套辅助工具来强化幻觉检测的有效性,并提供了针对不同幻觉类别的工具应用战略见解。
Feb, 2024
通过多个数据集和大型语言模型,包括Llama-2,对该模型的幻觉水平进行广泛评估,并展示了我们的方法在自动检测幻觉方面的有效性,达到了87%的平衡准确率,而无需依赖外部知识。
Mar, 2024
LLMs出现的幻觉指的是LLMs产生的回应在逻辑上是连贯的,但事实上是不准确的。本文引入了一种名为MIND的无监督训练框架,利用LLMs的内部状态实时检测幻觉,无需手动注释,并提出了用于评估多个LLMs幻觉检测的新基准HELM。我们的实验证明,MIND在幻觉检测方面优于现有的最先进方法。
Mar, 2024
Luna是一个针对Retriever Augmented Generation的幻觉检测的DeBERTA-large(440M)编码器,通过在各个行业领域中的轻量级建模和广义化的多领域数据上的优良表现,实现了较低的成本和延迟以及优于GPT-3.5和商业评估框架的97%和96%的幻觉检测准确度。
Jun, 2024
本文探讨了四个大型语言模型(LLMs)(Llama 3、Gemma、GPT-3.5 Turbo和GPT-4)在幻觉生成和检测任务中的能力,并采用集成多数投票的方法将所有四个模型应用于检测任务,结果对于了解这些模型在处理幻觉生成和检测任务中的优势和不足具有有价值的见解。
Jul, 2024
该研究解决了大型语言模型中幻觉问题,即生成不准确内容的挑战,并指出现有方法的不足。论文提出THaMES,一个综合框架,能够自动生成测试集并评估幻觉的减轻效果,通过多种策略优化模型能力,结果表明商用模型在特定情况下更依赖不同的减轻策略,且参数高效微调显著提升模型表现。
Sep, 2024