BiMediX: 双语医学专家混合模型 LLM
我们旨在开发一个开源、多语言的医学语言模型,以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库 MMedC,其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于现有通用语言模型的自回归训练。我们还提出了一个新的多语言医学多选题答题基准 MMedBench,带有理由支持的。我们在基准测试中评估了一些流行的开源大型语言模型(LLMs),以及那些在 MMedC 上进一步自回归训练的模型,结果我们的最终模型 MMedLM 2 只有 70 亿个参数,在 MMedBench 上表现出优异的性能,甚至与 GPT-4 不相上下。我们将公开提供这些资源,包括代码、模型权重和数据集。
Feb, 2024
该论文介绍了 MedExpQA,一个基于医学考试的多语言基准,用于评估大型语言模型在医学问答中的表现,并指出目前大型语言模型的性能还有很大的改进空间,特别是对于英语以外的语言。同时,该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难,并呼吁进一步开发其他语言的基准。
Apr, 2024
目前,医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言(英语、法语、意大利语和西班牙语)的多语言语料库,训练出医学领域首个开源的多语言文本对文本模型 Medical mT5,并提出两个新的评估基准,以促进该领域的多语言研究。全面评估结果显示,Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型,与当前最先进的英语大型语言模型具有竞争力。
Apr, 2024
本文提供了一个框架来研究 LLMs 作为多语言对话系统在医疗查询中的有效性。通过对英语、西班牙语、中文和印地语等四种主要全球语言的广泛实验和算法与人工评估相结合的策略,我们发现 LLMs 在这些语言中的回答存在明显差异,表明需要增强跨语言能力。我们进一步提出了一种用于检测 LLMs 在医疗环境中多语言能力的跨语言基准。研究结果强调了增强这些模型的跨语言能力以及提供一个对所有人可访问的公平信息生态系统的紧迫性。
Oct, 2023
通过在多语种预训练模型 XLM-R 基础上采用基于知识的方法,将其转化为生物医学领域的模型 KBioXLM,并通过三个粒度的知识对齐来构建生物医学多语种语料库,从而在跨语言零样本场景中达到显著的性能提升。
Nov, 2023
本研究介绍了 MedExQA,这是一个用于评估大型语言模型对医学知识的理解能力的新型基准,通过构建涵盖五个不同医学专业的数据集,并且为每个问题 - 答案对提供多个解释,填补了当前医学问答基准的一个重要空白,即缺乏模型生成细致医学解释的全面评估。我们的工作强调了医学语言模型可解释性的重要性,提出了一个评估模型超越分类准确性的有效方法,并在特定领域 —— 言语病理学中,揭示了当前 GPT4 等语言模型理解能力不足的问题。我们的结果表明,使用多个解释进行生成评估更符合人类评估结果,提供了一个更稳健的自动理解评估机制的机会。为了丰富开源的医学语言模型(目前主要基于 Llama2),我们还提出了一种新的医学模型 MedPhi-2,基于 Phi-2 (2.7B)。该模型在生成解释方面的性能优于基于 Llama2-70B 的医学语言模型,展示了它在资源受限的医学领域的有效性。我们将分享我们的基准数据集和训练好的模型。
Jun, 2024
我们开发多语种医学 LLMs 以扩大医学 AI 技术在全球 61 亿人口中的应用,并通过开源数据集,代码,模型权重和评估基准来提供支持。
Mar, 2024
在高风险领域如医疗推理中,目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍:现有的大语言模型被训练以回答任何问题,即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式,让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架,用于模拟逼真的临床交互过程,其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息;当专家系统对决策缺乏信心时,会通过追问问题来获取患者缺失的详细信息,而不会做出诊断决策。为了评估 MEDIQ,我们将 MEDQA 和 CRAFT-MD(用于诊断问题回答的医学基准测试)转化为交互式设置。我们开发了一个可靠的患者系统,并原型化了几个专家系统,首先表明直接命令最先进的大语言模型提问会降低临床推理的质量,表明将大语言模型适应于交互式信息寻求环境是困难的。然后,我们使用新的弃权模型来改进专家系统,更好地估计模型置信度,并决定是否追问更多问题,从而将诊断准确率提高了 20.3%;然而,性能仍然落后于完整信息均提供的理论上限(在实践中不切实际)。进一步分析表明,通过过滤不相关的上下文和重新格式化对话,可以提高交互性能。总体而言,我们的论文介绍了一个关于大语言模型可靠性的新问题,一个新的 MEDIQ 框架,并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。
Jun, 2024
在小众语言如阿拉伯语中,我们详细研究了开放式大型语言模型在回应多轮指令方面的能力,并利用自定义的阿拉伯文翻译的 MT-Bench 基准套件和 GPT-4 作为评估工具,对英文和阿拉伯文进行了综合评估和比较,结果表明在不同任务类别(逻辑和文学)以英文或阿拉伯文指令时,模型的回答会有所差异。我们发现,使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后,我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。
Oct, 2023
本文介绍了 UMASS_BioNLP 团队参加 MEDIQA-Chat 2023 任务 A 和任务 C 的情况,并提出了一种名为医生 - 患者循环的新型 LLMs 合作系统,以生成高质量的对话数据集。通过 ROUGE、医学概念召回率、BLEU 和自身 BLEU 等自动度量标准对方法进行了评估,并对其与 ChatGPT 和 GPT-4 进行了比较分析,同时探讨了利用合作 LLMs 生成高质量数据集的潜力。
Jun, 2023