构建医学多语言语言模型的研究

Feb, 2024

Towards Building Multilingual Language Model for Medicine

Pengcheng Qiu, Chaoyi Wu, Xiaoman Zhang, Weixiong Lin, Haicheng Wang...

TL;DR我们旨在开发一个开源、多语言的医学语言模型，以使更广泛、语言多样的受众从不同地区受益。我们构建了一个新的多语言医学语料库 MMedC，其中包含约 255 亿个标记，涵盖 6 种主要语言，可用于现有通用语言模型的自回归训练。我们还提出了一个新的多语言医学多选题答题基准 MMedBench，带有理由支持的。我们在基准测试中评估了一些流行的开源大型语言模型（LLMs），以及那些在 MMedC 上进一步自回归训练的模型，结果我们的最终模型 MMedLM 2 只有 70 亿个参数，在 MMedBench 上表现出优异的性能，甚至与 GPT-4 不相上下。我们将公开提供这些资源，包括代码、模型权重和数据集。

Abstract

In this paper, we aim to develop an open-source, multilingual language model for medicine, that the benefits a wider, linguistically diverse audience from different regions. In general, we present the contributio

multilingual language model medicine mmedc mmedbench mmedlm 2

发现论文，激发创造

医学 mT5：一个开源的医学领域的多语言文本到文本 LLM

目前，医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言（英语、法语、意大利语和西班牙语）的多语言语料库，训练出医学领域首个开源的多语言文本对文本模型 Medical mT5，并提出两个新的评估基准，以促进该领域的多语言研究。全面评估结果显示，Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型，与当前最先进的英语大型语言模型具有竞争力。

Apr, 2024

通用到医疗应用的大型语言模型调查：数据集、方法论和评估

大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLMs 发展的方法。

Jun, 2024

L2M3：用于推进低资源地区医疗公平的多语言医学大型语言模型

通过大型语言模型和机器翻译模型相结合，解决千禧年后对未来 10 年内的 1000 万医护人员缺口问题。该模型提供医疗知识和诊断工具以满足社区医护人员的特殊需求，并通过开源组件显著降低医疗运营成本，以改善低收入和中等收入国家的医疗服务质量。

Apr, 2024

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

评估医学应用中的大型语言模型：一项调研

综述医学领域中大型语言模型评估的现状、挑战以及将其负责地整合到临床实践中所需的持续研究和创新。

May, 2024

医学中的大型语言模型综述

在这篇论文中，我们回顾了大型语言模型（LLMs）的发展，重点关注医学 LLMs 的需求和应用。我们提供了现有模型的简要概述，旨在探索进一步的研究方向并使其对未来医学应用产生益处。我们强调了医学 LLMs 在应用中的优势，以及其发展过程中遇到的挑战。最后，我们提出了技术整合的方向来减轻挑战，并为医学 LLMs 的未来研究方向提供了建议，旨在更好地满足医学领域的需求。

May, 2024

BioMistral: 面向医学领域的一组开源的预训练大型语言模型

BioMistral 是一个开源的、专门针对生物医学领域的大型语言模型，通过基于 Mistral 模型并在 PubMed Central 上进行进一步预训练来实现。我们在包含 10 个既定医疗问答任务的基准测试上对 BioMistral 进行了全面评估，同时探索了通过量化和模型合并方法获得的轻量级模型。我们的结果表明，与现有的开源医学模型相比，BioMistral 具有出色的性能，并且在与专有模型的竞争中有竞争优势。此外，为了解决英语以外数据的有限可用性，并评估医学领域中多语言的泛化能力，我们将该基准测试自动翻译和评估为其他 7 种语言。这标志着医学领域中大规模多语言评估的首次实现。在我们的实验中获得的数据集、多语言评估基准、脚本以及所有模型都可以免费获取。

Feb, 2024

MedLM：探索面向医学问答系统的语言模型

本研究通过比较一般性和专用于医学问答的精简语言模型的性能，旨在填补这方面的空白，并评估不同语言模型家族的性能，以探讨这些模型在医学问答领域的可靠性、比较性能和有效性，从而为不同语言模型在医学领域的特定应用提供有价值的见解。

Jan, 2024

医疗领域中的大型语言模型：综述

大型语言模型在医疗保健领域的部署引发了热情和忧虑，本综述论文探讨了针对医疗保健应用设计的现有大型语言模型的功能，从传统的预训练语言模型到目前的医疗保健领域的大型语言模型发展轨迹，特别关注临床语言理解任务的潜力以及性能评估、挑战和限制。

Dec, 2023

从初学者到专家：将医学知识建模到通用 LLM 中

本研究通过将预训练的通用大型语言模型精细调整为医学领域专家，并结合多种优化方法，包括注入通用医学知识、医学领域指导微调和特定医学任务适应性调整，成功提升了在医学领域的推理和应答能力。

Dec, 2023