RAmBLA:一个评估 LLMs 在生物医学领域作为助手可靠性的框架
本文通过系统调查研究,评估了检索增强型大型语言模型在 5 个不同的生物医学任务(三元组抽取、链接预测、分类、问题回答和自然语言推理)中的影响,并在医学领域建立了四个不同的测试组,测试了三个代表性的大型语言模型与三个不同的检索器在 9 个数据集上的性能。
May, 2024
通过提出一种名为增强检索增强机器学习(RRAML)的新型框架,将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合,有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。
Jul, 2023
该研究介绍了一种自动评估框架,评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力,通过重构来自美国医疗执照考试的医学多项选择题,提出了一个基准测试集,并开发了综合评估指标。研究结果表明,使用培训集对大型语言模型进行微调,可以减轻幻觉并提高其在所提出基准上的性能。
Sep, 2023
通过综述大型语言模型在医学领域中的应用和意义,揭示了它们在知识检索、研究支持、临床工作流自动化和诊断辅助等方面的效用,并探索了多模态语言模型以及自动化代理在医疗保健中的发展潜力。然而,为了有效地将这些模型整合到临床实践中,需要不断优化和进行伦理监管。
Nov, 2023
R-LLMs improve factual question-answering by combining pre-trained large language models with retrieval systems; RaLLe is an open-source framework that facilitates the development, evaluation, and optimization of R-LLMs for knowledge-intensive tasks, enhancing performance and accuracy.
Aug, 2023
最近,大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而,尽管在各种任务中取得了成功,但以前的研究尚未调查它们在生物医学领域的能力。为此,本文旨在评估 LLMs 在基准生物医学任务中的性能。为此,我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知,这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是,基于我们的评估结果我们发现,在具有较小训练集的生物医学数据集中,零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明,在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现,在所有任务中没有单个 LLM 能够胜过其他 LLMs,不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比,它们的性能仍然相当差,但我们的研究结果表明,LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。
Oct, 2023
该研究探讨了大型语言模型在医学领域中的应用,通过策略性地选择和设计提示语,增强模型在命名实体识别任务中的性能,并结合外部资源通过提示策略填补医学命名实体识别领域中的专业需求与通用语言模型之间的差距,最终提出的方法能够提高大型语言模型在医学命名实体识别任务中的 F1 分数。
Apr, 2024
我们的研究开发了一个基于统一医学语言系统(UMLS)的增强型大型语言模型(LLMs)框架,通过自动和医师评估等方法,实验证明了该框架有效地提高了生成内容的准确性、完整性和相关性,同时突出了大型语言模型在医学问答中的潜在应用价值。
Oct, 2023