面向医疗的多语言大语言模型民主化:通过两阶段指令微调方法
将大型语言模型(LLMs)整合到医疗保健中存在潜力但也面临挑战。我们提出了一种多阶段训练方法,结合了专业域持续预训练(DCPT)、监督微调(SFT)和直接偏好优化(DPO),并引入一个包含医疗问答、纯文本、知识图谱和对话的3Gb中医数据集。通过我们的训练流程,医学LLM(Qilin-Med)表现出显著的性能提升,突破了Baichuan-7B在CMExam上的准确率,并在Huatuo-26M测试集上超过了SFT的性能,在BLEU-1和ROUGE1上分别达到16.66和27.44。这凸显了我们的训练方法在医疗应用中优化LLMs的优势。
Oct, 2023
通过LoRA-based instruction-tuning来提高日本医学问答任务的性能,在多项选择题的评估中发现其可以部分地将领域特定知识整合到大型语言模型中,较大模型效果更显著,并突出了将英语为中心的模型适应于日本应用的潜力,同时也强调了日本为中心的模型的局限性,这一举措标志着在不依赖外部服务的情况下,医疗机构可以对模型进行精细调整和操作的先驱性努力。
Oct, 2023
使用连续训练和指导微调的方法,快速适应中国医学领域的Llama 2基础模型,实验证实了该方法的有效性,产生了与GPT-3.5-turbo相媲美的模型,并且使用更少的计算资源。这个领域特定模型对于各种中国医学应用是有用的,并为领域特定训练提供了一个模板,用于那些预训练模型缺乏所需专业知识的领域,如法律、科学和工程。
Nov, 2023
通过发布具有7B和70B参数的开源LLMs套件MEDITRON,我们改进了对大规模医学LLMs的访问,并在多个医学测试中显示出显著的性能提升。与闭源LLMs相比,MEDITRON-70B在GPT-3.5和Med-PaLM上表现优异,并且与GPT-4和Med-PaLM-2相差不到5%和10%。
Nov, 2023
我们旨在开发一个开源、多语言的医学语言模型,以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库MMedC,其中包含约255亿个标记,涵盖6种主要语言,可用于现有通用语言模型的自回归训练。我们还提出了一个新的多语言医学多选题答题基准MMedBench,带有理由支持的。我们在基准测试中评估了一些流行的开源大型语言模型(LLMs),以及那些在MMedC上进一步自回归训练的模型,结果我们的最终模型MMedLM 2只有70亿个参数,在MMedBench上表现出优异的性能,甚至与GPT-4不相上下。我们将公开提供这些资源,包括代码、模型权重和数据集。
Feb, 2024
该论文介绍了MedExpQA,一个基于医学考试的多语言基准,用于评估大型语言模型在医学问答中的表现,并指出目前大型语言模型的性能还有很大的改进空间,特别是对于英语以外的语言。同时,该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难,并呼吁进一步开发其他语言的基准。
Apr, 2024
通过使用多个70B参数的大型语言模型以及日本医学问答数据集进行指导调整,我们首次展示了指导调整显著提高了日本医学领域的语言模型在解决日本医学许可考试方面的准确性,超过了50%。特别是,与英文为中心的模型相比,以日语为中心的模型在通过指导调整方面取得了更大的改进,这凸显了我们地方语言的持续预训练和标记工具的调整的重要性。我们还检验了两种略有不同的提示格式,结果显示有可观的性能改进。
Jun, 2024
本研究针对中文综合医疗基准(CMB)中大型语言模型(LLM)性能提升的问题,提出了一种通过多样化和分布均匀的数据集来优化模型性能的新方法。研究发现,即便是较小的模型只要使用精心策划的多样化数据集,也能达到与大型模型相媲美的表现,强调了数据集质量和多样性在微调过程中的重要性。
Jul, 2024
本研究提出了MedS-Bench,旨在评估大型语言模型在临床环境中的表现,填补了现有基准的不足。通过开发MedS-Ins数据集,我们为医学领域提供了大量指令微调的数据,能够有效提升模型在复杂临床任务上的表现。我们的成果不仅展示了MMedIns-Llama 3的优越性,还通过公开数据集促进了医疗领域的进一步研究与发展。
Aug, 2024