Feb, 2024

构建医学多语言语言模型的研究

TL;DR我们旨在开发一个开源、多语言的医学语言模型,以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库 MMedC,其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于现有通用语言模型的自回归训练。我们还提出了一个新的多语言医学多选题答题基准 MMedBench,带有理由支持的。我们在基准测试中评估了一些流行的开源大型语言模型(LLMs),以及那些在 MMedC 上进一步自回归训练的模型,结果我们的最终模型 MMedLM 2 只有 70 亿个参数,在 MMedBench 上表现出优异的性能,甚至与 GPT-4 不相上下。我们将公开提供这些资源,包括代码、模型权重和数据集。