Aqulia-Med LLM:全过程开源医疗语言模型的开创性
本文介绍了一个专门为医学应用 fine-tune 的数据集,并探究 fine-tuning 对于模型性能的影响,通过模型性能对比,论证 fine-tuned 模型在医学考试认证中的优越性。
Apr, 2023
我们开发多语种医学 LLMs 以扩大医学 AI 技术在全球 61 亿人口中的应用,并通过开源数据集,代码,模型权重和评估基准来提供支持。
Mar, 2024
我们旨在开发一个开源、多语言的医学语言模型,以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库 MMedC,其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于现有通用语言模型的自回归训练。我们还提出了一个新的多语言医学多选题答题基准 MMedBench,带有理由支持的。我们在基准测试中评估了一些流行的开源大型语言模型(LLMs),以及那些在 MMedC 上进一步自回归训练的模型,结果我们的最终模型 MMedLM 2 只有 70 亿个参数,在 MMedBench 上表现出优异的性能,甚至与 GPT-4 不相上下。我们将公开提供这些资源,包括代码、模型权重和数据集。
Feb, 2024
将大型语言模型(LLMs)整合到医疗保健中存在潜力但也面临挑战。我们提出了一种多阶段训练方法,结合了专业域持续预训练(DCPT)、监督微调(SFT)和直接偏好优化(DPO),并引入一个包含医疗问答、纯文本、知识图谱和对话的 3Gb 中医数据集。通过我们的训练流程,医学 LLM(Qilin-Med)表现出显著的性能提升,突破了 Baichuan-7B 在 CMExam 上的准确率,并在 Huatuo-26M 测试集上超过了 SFT 的性能,在 BLEU-1 和 ROUGE1 上分别达到 16.66 和 27.44。这凸显了我们的训练方法在医疗应用中优化 LLMs 的优势。
Oct, 2023
医疗领域的大型语言模型的集成将转变医学诊断、研究和患者护理,Hippocrates 是一个开源 LLM 框架,通过无限制地提供训练数据集、代码、检查点和评估协议来促进协作研究,解锁 LLM 的全部潜力,并使其在全球范围内享有人工智能研究的好处。
Apr, 2024
OpenMedLM 是一个使用 prompt 工程技术提供开放源 OS LLMs 的创新平台,它在医学基准测试中表现出 OS SOTA 结果,并通过进一步利用 prompt 工程技术提高可访问性的医学 LLMs 的性能。
Feb, 2024
目前,医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言(英语、法语、意大利语和西班牙语)的多语言语料库,训练出医学领域首个开源的多语言文本对文本模型 Medical mT5,并提出两个新的评估基准,以促进该领域的多语言研究。全面评估结果显示,Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型,与当前最先进的英语大型语言模型具有竞争力。
Apr, 2024
介绍了 PMC-LLaMA, 一种在 4.8 百万篇生物医学论文上 fine-tuning 得到的语言模型,用于注入医学知识,提高在医学领域的性能,经过初步试验后在生物医学数据集上表现出更好的理解生物医学特定概念,在 QA 基准上表现出高性能。
Apr, 2023
在本研究中,我们展示了一个小型开源语言模型(LLMs)可以有效地从门诊患者 - 医生对话中生成高质量的临床笔记,通过包括持续预训练、监督微调和强化学习在内的综合的领域和任务特定的自适应过程。我们通过增强方法 DistillDirect,以 Gemini Pro 作为教师模型,在策略上进行了强化学习。我们的研究证明了训练较小、开源的 LLMs 以辅助临床文档编写的潜力和可行性,充分利用医疗机构对患者记录和领域专业知识的访问。
Apr, 2024
在医疗笔记和对话中,非结构化文本具有丰富的信息。最近大型语言模型(LLMs)的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能,超过了传统的文本分析方法。然而,在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究,特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs(如 Llama2 和 Mistral)在医疗摘要任务中的性能,使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制,支持为特定任务选择有效的 LLMs,并推进数字健康领域的知识发现。
May, 2024