COLINGApr, 2024

医学 mT5:一个开源的医学领域的多语言文本到文本 LLM

TL;DR目前,医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言(英语、法语、意大利语和西班牙语)的多语言语料库,训练出医学领域首个开源的多语言文本对文本模型 Medical mT5,并提出两个新的评估基准,以促进该领域的多语言研究。全面评估结果显示,Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型,与当前最先进的英语大型语言模型具有竞争力。