大型语言模型的概率医学预测

Aug, 2024

Probabilistic Medical Predictions of Large Language Models

Bowen Gu, Rishi J. Desai, Kueiyu Joshua Lin, Jie Yang

TL;DR本研究解决了大型语言模型（LLMs）在生成临床预测概率时的可靠性问题。通过对比显式和隐式概率，该研究发现显式概率在区分、精确度和召回率方面的表现较差，尤其是在小型LLM和不平衡数据集上更为明显。这一发现强调了在临床应用中对生成概率的谨慎解读与研究的必要性。

Abstract

Large Language Models (LLMs) have demonstrated significant potential in Clinical Applications through prompt engineering, which enables the generation of flexible and diverse clinical predictions. However, they p

发现论文，激发创造

我们是否还需要临床语言模型？

通过实验研究表明相对较小的专业临床文本语言模型可在解析和理解电子健康记录方面显著优于大规模的综合性语言模型并且通过进行临床标记的预训练还可以实现更小、更高效的专业化临床模型。

Feb, 2023

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估LLMs在基准生物医学任务中的性能。为此，我们对26个数据集中6个不同生物医学任务的4种流行LLMs进行了全面评估。据我们所知，这是第一次在生物医学领域对各种LLMs进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的LLMs甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使LLMs在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个LLM能够胜过其他LLMs，不同LLMs的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023

SemEval-2024任务2上的D-NLP：评估大型语言模型的临床推理能力

我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力，并分析了它们在具有医学缩写和数量-定量推理要求的挑战性实例上的表现。Gemini，我们的领先大型语言模型，在测试集上获得了0.748的F1分数，在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。

May, 2024

评估医学应用中的大型语言模型：一项调研

综述医学领域中大型语言模型评估的现状、挑战以及将其负责地整合到临床实践中所需的持续研究和创新。

May, 2024

医学中的大型语言模型综述

在这篇论文中，我们回顾了大型语言模型（LLMs）的发展，重点关注医学LLMs的需求和应用。我们提供了现有模型的简要概述，旨在探索进一步的研究方向并使其对未来医学应用产生益处。我们强调了医学LLMs在应用中的优势，以及其发展过程中遇到的挑战。最后，我们提出了技术整合的方向来减轻挑战，并为医学LLMs的未来研究方向提供了建议，旨在更好地满足医学领域的需求。

May, 2024

医学领域的大型语言模型综述：技术、应用、可信度与未来发展方向

综述医疗大型自然语言模型（Med-LLM）的进化历史、技术、应用以及对医疗保健的影响，涵盖临床决策支持、报告生成、医学教育等方面，探索其潜力和限制，并讨论公平性、责任感、隐私保护和鲁棒性等挑战，展望未来的发展方向。

Jun, 2024

大型语言模型在数值和语义医学知识方面的性能表现：基于循证问题与答案的基准评估

临床问题解决需要处理语义医学知识，如疾病描述和诊断测试的数值医学知识进行循证决策。因此，我们评估了大型语言模型（LLMs）在数值和语义问题类型上的表现，并将其与人类进行比较。研究发现，LLMs在语义问题上的表现优于数值问题，在不同的医学方面存在差距，仍然不及人类，因此应该谨慎对待它们的医疗建议。

Jun, 2024

大型语言模型作为生物医学假设生成器的综合评估

生物医学知识、大型语言模型、假设生成、不确定性与生物医学发现是本研究的关键词和主题，在综合评估了大型语言模型作为生物医学假设生成器的能力后，研究发现大型语言模型可以生成新颖且经过验证的假设，而多智体交互和工具使用可以提高零样本假设生成的性能，并针对外部知识的类型和范围提出了需谨慎考虑的观点，为进一步研究提供了有价值的洞见。

Jul, 2024

大模型总是更好吗？评估和提示大型语言模型在非生成性医学任务中的表现

本研究解决了大型语言模型（LLMs）在处理结构化电子健康记录和非结构化临床笔记时的有效性问题。通过基准测试不同模型，发现LLMs在结构化数据上的零-shot预测能力较强，但在非结构化文本任务中，微调的BERT模型表现更优。这一发现强调了根据任务要求和数据特征选择合适模型的重要性，以优化NLP技术在医疗领域的应用。

Jul, 2024

生物医学大语言模型似乎不如通用模型在未见医疗数据上的表现

本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性，发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中，小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设，并强调了在医疗人工智能中需要更严格的评估框架。

Aug, 2024