Med-HALT:大型语言模型医学领域幻变测试
大视觉语言模型(LVLMs)在自然图像和文本数据的各种任务中取得了卓越的性能,在 LVLMs 微调和训练方面引发了大量研究。尽管有所进展,但对这些模型在小型数据集上微调时对幻觉的稳健性的研究非常有限。本研究引入了一个新的基准数据集,即医学视觉幻觉测试(MedVH),以评估特定领域 LVLMs 的幻觉。MedVH 包括五个任务,用于评估 LVLMs 在医学上下文中的幻觉,包括对文本和视觉输入的全面理解以及长文本回应生成。我们对通用 LVLMs 和医学 LVLMs 进行了广泛实验,发现尽管医学 LVLMs 在标准医学任务上表现出了很好的性能,但它们特别容易产生幻觉,通常比通用模型更容易产生幻觉,这引发了对这些特定领域模型可靠性的重大担忧。对于医学 LVLMs 在真实世界应用中真正有价值,它们不仅必须准确整合医学知识,还必须保持稳健的推理能力以防止幻觉。我们的工作为未来的这些研究提供了评估的途径。
Jul, 2024
为了检测和评估 LVLMs 的幻觉,我们引入了 Med-HallMark,这是第一个专门设计用于医学多模态领域中的幻觉检测和评估的基准。我们提出了 MediHall Score 评价指标,并介绍了 MediHallDetector,一个用于准确检测幻觉的新型医学 LVLM。通过实验评估,我们建立了使用我们的基准的热门 LVLMs 的基准值,结果表明 MediHall Score 相对于传统指标提供了对幻觉影响更丰富的理解,并展示了 MediHallDetector 的改进性能。我们希望这项工作能显著提高 LVLMs 在医学应用中的可靠性。
Jun, 2024
本研究引入了 Hallucination Evaluation for Large Language Models(HELMA)基准来评估 LLM 的幻觉表现,并提出了基于 ChatGPT 的取样 - 过滤框架来生成大规模的,人类标注的幻觉数据集,并指出 ChatGPT 生成幻觉的概率较大,现有的 LLM 在识别文本幻觉方面面临巨大挑战,但可通过提供外部知识或添加推理步骤来改善表现。
May, 2023
为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力,我们引入了 HalEval-Wild,这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询,并使用强大的 GPT-4 模型和检索增强生成 (RAG) 进行参考答案综合,我们对 LLMs 产生的幻觉进行了细致的分析,从而提供了一种改善 LLM 可靠性的新方法。
Mar, 2024
通过与大规模语言模型和数据集合作,本文分析了医学生成型问答系统中幻觉现象的问题,并提出了一种交互自我反思的方法来解决该挑战,最终实验证明该方法在幻觉减少方面优于基线模型。
Oct, 2023
通过模拟人类认知过程构建细粒度指导对,应用推理场景中的 “思路链” 概念到训练场景,提出了名为 MedThink 的方法,该方法针对医学领域显著改善了医学图像报告生成任务中模型的性能,并大幅减轻了虚构现象。
Jun, 2024
这项研究提出 DiaHalu,这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题,促进了两个 ChatGPT3.5 之间的对话,并对不符合人类语言约定的内容进行手动修改,然后再由语言模型重新生成,模拟真实的人机互动场景。DiaHalu 覆盖了四个常见的多轮对话领域和五个幻觉亚类,从事实和忠实度幻觉进行扩展。在该数据集上,一些知名的大型语言模型和检测方法的实验证明 DiaHalu 是一个具有挑战性的基准,对进一步的研究具有重要价值。
Mar, 2024
提出 HalluDial,这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial 包含了以上文提到的内容,并包括了分为自发和感应性的幻觉情景,并涵盖了实际性幻觉和忠实性幻觉。
Jun, 2024
基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法,并分析了导致幻觉的因素,并提供了缓解幻觉问题的建议。
Aug, 2023
介绍了一个自动可扩展的框架,将大型语言模型(LLM)的幻觉倾向与高效的幻觉检测相结合,提供了测试和改进 LLMs 的机会,并有潜力生成特定领域的基准数据集。
Feb, 2024