LLM 对相关医学参考文献的引用质量评估框架和分析

Feb, 2024

LLM 对相关医学参考文献的引用质量评估框架和分析

How well do LLMs cite relevant medical references? An evaluation framework and analyses

Kevin Wu, Eric Wu, Ally Cassasola, Angela Zhang, Kevin Wei...

TL;DR使用大型语言模型（LLMs）回答医学问题，验证其生成的来源的相关性，并开源医学问题和专家注释的数据集以便进行未来评估。

Abstract

large language models (llms) are currently being used to answer medical questions across a variety of clinical domains. Recent top-performing commercial →

large language models llms medical questions source relevance automated pipeline

发现论文，激发创造

通用到医疗应用的大型语言模型调查：数据集、方法论和评估

大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLMs 发展的方法。

Jun, 2024

评估医学应用中的大型语言模型：一项调研

综述医学领域中大型语言模型评估的现状、挑战以及将其负责地整合到临床实践中所需的持续研究和创新。

May, 2024

明确前往方向：使 LLM 成为一个相关、负责任和可信赖的搜索引擎

利用大型语言模型（LLM）的知识构建了一个新的生成检索框架，以提高相关性和直接回答搜索问题的能力，验证生成结果的可靠性和贡献来源的可信度，实现了在 LLM 时代的 “PageRank”。该框架包括生成器、验证器和优化器三个核心模块，分别关注生成可信任的在线来源、验证来源可靠性以及优化不可靠的来源。通过广泛的实验和评估，证明了我们方法在相关性、负责性和可信性上对多种最先进方法的优越性。

Oct, 2023

SemEval-2024 任务 2 上的 D-NLP：评估大型语言模型的临床推理能力

我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力，并分析了它们在具有医学缩写和数量 - 定量推理要求的挑战性实例上的表现。Gemini，我们的领先大型语言模型，在测试集上获得了 0.748 的 F1 分数，在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。

May, 2024

大型语言模型反映人类引用模式，具有较高的引用偏好

大型语言模型（LLMs）如 GPT-4 在引用实践中引入新的动态，并且可能放大现有的偏见和引入新的偏见，从而可能扭曲科学知识的传播。

May, 2024

医学领域的大型语言模型综述：技术、应用、可信度与未来发展方向

综述医疗大型自然语言模型（Med-LLM）的进化历史、技术、应用以及对医疗保健的影响，涵盖临床决策支持、报告生成、医学教育等方面，探索其潜力和限制，并讨论公平性、责任感、隐私保护和鲁棒性等挑战，展望未来的发展方向。

Jun, 2024

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

评估 GPT-3.5 和 GPT-4 在支持医疗服务实际信息需求方面的作用

本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后，通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明，虽然这两个模型能够提供安全和可信的响应，但往往不能满足给定问题的特定信息需求。

Apr, 2023

将大型语言模型凝聚用于将患者匹配到临床试验

探究专有和开源大型语言模型在患者试验匹配任务中的有效性，并证明在有限和合成数据集上进行微调后，开源模型与专有模型性能相当，从而为它们在实际医疗应用中的部署提供了巨大机会。

Dec, 2023

在源语言中迷失：大型语言模型如何评估机器翻译的质量

大型语言模型在机器翻译评估任务中取得了显著的成果，然而关于它们如何利用提供的数据进行评估仍存在知识空白。本研究旨在探索大型语言模型如何利用源语言和参考信息进行评估，从而更好地理解大型语言模型的工作机制。通过设计不同的输入模式和模型类型进行受控实验，并使用粗粒度和细粒度提示来识别源语言与参考信息的有效性，我们惊讶地发现参考信息显著提高了评估准确性，而源语言信息有时会适得其反，表明在使用大型语言模型评估翻译时缺乏跨语言能力。我们还对大型语言模型的翻译错误检测进行了元评估，观察到类似的现象。这些发现也为充分利用大型语言模型的跨语言能力以在机器翻译评估任务中取得更好性能提供了潜在的研究方向。

Jan, 2024