Apollo:轻量级多语言医学 LLMs 实现医疗 AI 的民主化,面向 60 亿人
提出 Aquila-Med:一种基于 Aquila 的双语医学 LLM,通过持续预训练、监督微调以及强化学习从人类反馈中进行训练,解决医学领域中开源社区性能的问题,并在单轮对话、多轮对话和医学多项选择题方面取得显著成果。
Jun, 2024
我们旨在开发一个开源、多语言的医学语言模型,以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库 MMedC,其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于现有通用语言模型的自回归训练。我们还提出了一个新的多语言医学多选题答题基准 MMedBench,带有理由支持的。我们在基准测试中评估了一些流行的开源大型语言模型(LLMs),以及那些在 MMedC 上进一步自回归训练的模型,结果我们的最终模型 MMedLM 2 只有 70 亿个参数,在 MMedBench 上表现出优异的性能,甚至与 GPT-4 不相上下。我们将公开提供这些资源,包括代码、模型权重和数据集。
Feb, 2024
医疗领域的大型语言模型的集成将转变医学诊断、研究和患者护理,Hippocrates 是一个开源 LLM 框架,通过无限制地提供训练数据集、代码、检查点和评估协议来促进协作研究,解锁 LLM 的全部潜力,并使其在全球范围内享有人工智能研究的好处。
Apr, 2024
目前,医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言(英语、法语、意大利语和西班牙语)的多语言语料库,训练出医学领域首个开源的多语言文本对文本模型 Medical mT5,并提出两个新的评估基准,以促进该领域的多语言研究。全面评估结果显示,Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型,与当前最先进的英语大型语言模型具有竞争力。
Apr, 2024
该论文介绍了 MedExpQA,一个基于医学考试的多语言基准,用于评估大型语言模型在医学问答中的表现,并指出目前大型语言模型的性能还有很大的改进空间,特别是对于英语以外的语言。同时,该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难,并呼吁进一步开发其他语言的基准。
Apr, 2024
通过大型语言模型和机器翻译模型相结合,解决千禧年后对未来 10 年内的 1000 万医护人员缺口问题。该模型提供医疗知识和诊断工具以满足社区医护人员的特殊需求,并通过开源组件显著降低医疗运营成本,以改善低收入和中等收入国家的医疗服务质量。
Apr, 2024
大型语言模型(LLMs)在各种自然语言处理任务中表现出令人惊讶的性能。最近,结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs,并提供了指导各种医学应用的 LLMs 发展的方法。
Jun, 2024
在这篇论文中,我们回顾了大型语言模型(LLMs)的发展,重点关注医学 LLMs 的需求和应用。我们提供了现有模型的简要概述,旨在探索进一步的研究方向并使其对未来医学应用产生益处。我们强调了医学 LLMs 在应用中的优势,以及其发展过程中遇到的挑战。最后,我们提出了技术整合的方向来减轻挑战,并为医学 LLMs 的未来研究方向提供了建议,旨在更好地满足医学领域的需求。
May, 2024
本文介绍了一个专门为医学应用 fine-tune 的数据集,并探究 fine-tuning 对于模型性能的影响,通过模型性能对比,论证 fine-tuned 模型在医学考试认证中的优越性。
Apr, 2023
本文提供了一个框架来研究 LLMs 作为多语言对话系统在医疗查询中的有效性。通过对英语、西班牙语、中文和印地语等四种主要全球语言的广泛实验和算法与人工评估相结合的策略,我们发现 LLMs 在这些语言中的回答存在明显差异,表明需要增强跨语言能力。我们进一步提出了一种用于检测 LLMs 在医疗环境中多语言能力的跨语言基准。研究结果强调了增强这些模型的跨语言能力以及提供一个对所有人可访问的公平信息生态系统的紧迫性。
Oct, 2023