RAmBLA：一个评估 LLMs 在生物医学领域作为助手可靠性的框架

ICLRMar, 2024

RAmBLA：一个评估 LLMs 在生物医学领域作为助手可靠性的框架

RAmBLA: A Framework for Evaluating the Reliability of LLMs as Assistants in the Biomedical Domain

William James Bolton, Rafael Poyiadzi, Edward R. Morrell, Gabriela van Bergen Gonzalez Bueno, Lea Goetz

TL;DR我们引入了 RAmBLA 框架，评估了四种最先进的基于语言模型的助手是否能在生物医学领域中作为可靠的助手，并明确了快速性、高召回率和缺乏幻觉是这种使用情况的必要标准。

Abstract

large language models (LLMs) increasingly support applications in a wide range of domains, some with potential high societal impact such as biomedicine, yet their reliability in realistic use cases is under-researched. In this work we introduce the Reliability AssesMent for

large language models reliability assessment biomedical llm assistants prompt robustness hallucinations

发现论文，激发创造

在生物医学 NLP 中对检索增强的大型语言模型进行基准测试：应用、稳健性和自我意识

本文通过系统调查研究，评估了检索增强型大型语言模型在 5 个不同的生物医学任务（三元组抽取、链接预测、分类、问题回答和自然语言推理）中的影响，并在医学领域建立了四个不同的测试组，测试了三个代表性的大型语言模型与三个不同的检索器在 9 个数据集上的性能。

May, 2024

面向 LLMs 的临床能力自动评估：度量标准、数据和算法

基于大语言模型的临床能力评估范式，利用自动化评估方法来确保临床方案的安全性和可靠性。

Mar, 2024

RRAML: 强化检索增强机器学习

通过提出一种名为增强检索增强机器学习（RRAML）的新型框架，将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合，有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。

Jul, 2023

大型语言模型多轮医疗咨询自动评估框架

该研究介绍了一种自动评估框架，评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力，通过重构来自美国医疗执照考试的医学多项选择题，提出了一个基准测试集，并开发了综合评估指标。研究结果表明，使用培训集对大型语言模型进行微调，可以减轻幻觉并提高其在所提出基准上的性能。

Sep, 2023

大型语言模型阐明人工医疗助理的进展路径：综述

通过综述大型语言模型在医学领域中的应用和意义，揭示了它们在知识检索、研究支持、临床工作流自动化和诊断辅助等方面的效用，并探索了多模态语言模型以及自动化代理在医疗保健中的发展潜力。然而，为了有效地将这些模型整合到临床实践中，需要不断优化和进行伦理监管。

Nov, 2023

RaLLe: 发展和评估检索增强的大型语言模型的框架

R-LLMs improve factual question-answering by combining pre-trained large language models with retrieval systems; RaLLe is an open-source framework that facilitates the development, evaluation, and optimization of R-LLMs for knowledge-intensive tasks, enhancing performance and accuracy.

Aug, 2023

评估医学应用中的大型语言模型：一项调研

综述医学领域中大型语言模型评估的现状、挑战以及将其负责地整合到临床实践中所需的持续研究和创新。

May, 2024

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估 LLMs 在基准生物医学任务中的性能。为此，我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知，这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个 LLM 能够胜过其他 LLMs，不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023

生物医学中的 LLMs：临床命名实体识别研究

该研究探讨了大型语言模型在医学领域中的应用，通过策略性地选择和设计提示语，增强模型在命名实体识别任务中的性能，并结合外部资源通过提示策略填补医学命名实体识别领域中的专业需求与通用语言模型之间的差距，最终提出的方法能够提高大型语言模型在医学命名实体识别任务中的 F1 分数。

Apr, 2024

在医疗领域中提高大型语言模型中的事实准确性的 UMLS 增强框架

我们的研究开发了一个基于统一医学语言系统（UMLS）的增强型大型语言模型（LLMs）框架，通过自动和医师评估等方法，实验证明了该框架有效地提高了生成内容的准确性、完整性和相关性，同时突出了大型语言模型在医学问答中的潜在应用价值。

Oct, 2023