LLM 对相关医学参考文献的引用质量评估框架和分析
大型语言模型(LLMs)在各种自然语言处理任务中表现出令人惊讶的性能。最近,结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs,并提供了指导各种医学应用的 LLMs 发展的方法。
Jun, 2024
利用大型语言模型(LLM)的知识构建了一个新的生成检索框架,以提高相关性和直接回答搜索问题的能力,验证生成结果的可靠性和贡献来源的可信度,实现了在 LLM 时代的 “PageRank”。该框架包括生成器、验证器和优化器三个核心模块,分别关注生成可信任的在线来源、验证来源可靠性以及优化不可靠的来源。通过广泛的实验和评估,证明了我们方法在相关性、负责性和可信性上对多种最先进方法的优越性。
Oct, 2023
我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力,并分析了它们在具有医学缩写和数量 - 定量推理要求的挑战性实例上的表现。Gemini,我们的领先大型语言模型,在测试集上获得了 0.748 的 F1 分数,在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。
May, 2024
综述医疗大型自然语言模型(Med-LLM)的进化历史、技术、应用以及对医疗保健的影响,涵盖临床决策支持、报告生成、医学教育等方面,探索其潜力和限制,并讨论公平性、责任感、隐私保护和鲁棒性等挑战,展望未来的发展方向。
Jun, 2024
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后,通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明,虽然这两个模型能够提供安全和可信的响应,但往往不能满足给定问题的特定信息需求。
Apr, 2023
探究专有和开源大型语言模型在患者试验匹配任务中的有效性,并证明在有限和合成数据集上进行微调后,开源模型与专有模型性能相当,从而为它们在实际医疗应用中的部署提供了巨大机会。
Dec, 2023
大型语言模型在机器翻译评估任务中取得了显著的成果,然而关于它们如何利用提供的数据进行评估仍存在知识空白。本研究旨在探索大型语言模型如何利用源语言和参考信息进行评估,从而更好地理解大型语言模型的工作机制。通过设计不同的输入模式和模型类型进行受控实验,并使用粗粒度和细粒度提示来识别源语言与参考信息的有效性,我们惊讶地发现参考信息显著提高了评估准确性,而源语言信息有时会适得其反,表明在使用大型语言模型评估翻译时缺乏跨语言能力。我们还对大型语言模型的翻译错误检测进行了元评估,观察到类似的现象。这些发现也为充分利用大型语言模型的跨语言能力以在机器翻译评估任务中取得更好性能提供了潜在的研究方向。
Jan, 2024