弥合开源与商业大型语言模型在医学证据总结中的差距
使用大型语言模型(Flan-T5 XXL)从非结构化电子健康记录(EHR)数据中检索和总结与特定查询相关的论据,较传统信息检索方法更受放射科医生欢迎,但面临LLMs产生虚构证据的挑战。然而,模型的信心可能指示LLMs是否存在虚构,为解决此问题提供了潜在方法。
Sep, 2023
探究专有和开源大型语言模型在患者试验匹配任务中的有效性,并证明在有限和合成数据集上进行微调后,开源模型与专有模型性能相当,从而为它们在实际医疗应用中的部署提供了巨大机会。
Dec, 2023
FactPICO是一个针对医学文本的纯文本摘要事实性基准,通过细致评估和专家的自然语言解释,评估了基于LLMs的三种纯文本摘要生成模型(GPT-4,Llama-2和Alpaca)生成的345个RCT摘要的事实性,解析了RCT的关键元素(人口、干预措施、比较、结果)以及相关发现的准确性,也评估了LLMs添加的额外信息(如解释)的准确性,研究发现纯文本医学证据的摘要仍然具有挑战性,尤其是在简单性和事实性之间的平衡,并且现有的度量方法与专家判断在实例级别上的相关性较差。
Feb, 2024
自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性(FC)指标受性能、效率和可解释性的限制。大型语言模型(LLM)的最新进展在文本评估方面表现出了显著的潜力,但其在总结中评估FC的效果尚未充分探索。本文首先通过引入TreatFact数据集来填补这一空白,该数据集包含由领域专家进行FC注释的LLM生成的临床文本摘要。此外,我们在新闻和临床领域对11个LLM进行了FC评估,并分析了模型大小、提示、预训练和微调数据的影响。研究发现,尽管专有模型在任务上占主导地位,但开源LLM仍然落后。然而,通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源LLM的性能。在TreatFact上的实验表明,先前的方法和基于LLM的评估器都无法捕捉到临床摘要中的实际不一致性,给FC评估提出了新的挑战。
Feb, 2024
综述探讨了在医疗保健领域中应用大型语言模型 (LLMs) 的广泛应用和必要的评估,强调了充分利用这些模型提升医疗保健结果的能力的关键验证需求。
Apr, 2024
该文章介绍了使用GPT-4(一个大型语言模型)快速可行性研究来(半)自动化系统性综述中的数据提取,在设计和评估LLM-based自动化工具方面仍然存在欠缺的问题。
May, 2024
在医疗笔记和对话中,非结构化文本具有丰富的信息。最近大型语言模型(LLMs)的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能,超过了传统的文本分析方法。然而,在文献中缺乏有系统地评估和报告不同LLMs性能的科学研究,特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源LLMs(如Llama2和Mistral)在医疗摘要任务中的性能,使用GPT-4作为评估器。我们创新的LLMs定量评估方法可以实现质量控制,支持为特定任务选择有效的LLMs,并推进数字健康领域的知识发现。
May, 2024
商业大型语言模型在自然语言处理领域的基准测试中表现出色,与开源模型相比,它们具有更高的吞吐量且成本较低,但在少量样本和零样本情况下性能有所差距。
Jul, 2024
本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性,发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中,小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设,并强调了在医疗人工智能中需要更严格的评估框架。
Aug, 2024