针对医疗领域机器翻译的指令调优大型语言模型
研究调整后的多领域神经机器翻译模型在医学领域的表现,通过自动度量和错误分类注释后的人工分析发现,与领域外的MNMT相比,领域内的MNMT在所有测量的自动度量上表现更好,并且产生更少的术语错误。
Dec, 2022
通过实验研究表明相对较小的专业临床文本语言模型可在解析和理解电子健康记录方面显著优于大规模的综合性语言模型并且通过进行临床标记的预训练还可以实现更小、 更高效的专业化临床模型。
Feb, 2023
评估四个最先进的面向指令的大型语言模型(ChatGPT、Flan-T5 UL2、Tk-Instruct和Alpaca)在13项真实世界的临床和生物医学自然语言处理(NLP)任务,如命名实体识别(NER)、问答(QA)、关系抽取(RE)等方面的表现。总体结果表明,评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能,尤其在QA任务中表现出色,即使它们之前从未见过这些任务的示例。然而,我们观察到分类和RE任务的性能低于专门训练用于医学领域的模型(如PubMedBERT)所能达到的水平。最后,我们注意到没有一个语言模型在所有研究任务中都胜过其他模型,某些模型在特定任务中更适合。
Jul, 2023
目前,医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言(英语、法语、意大利语和西班牙语)的多语言语料库,训练出医学领域首个开源的多语言文本对文本模型Medical mT5,并提出两个新的评估基准,以促进该领域的多语言研究。全面评估结果显示,Medical mT5在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型,与当前最先进的英语大型语言模型具有竞争力。
Apr, 2024
大型语言模型(LLMs)在各种自然语言处理任务中表现出令人惊讶的性能。最近,结合领域特定知识的医学LLMs在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用LLMs训练医学LLMs,并提供了指导各种医学应用的LLMs发展的方法。
Jun, 2024
本研究旨在调查医学类大型语言模型在理解长上下文方面性能下降的现象,并通过调整Fine-tuning过程中常规数据与医学数据的比例和数量,确定最佳数据组成,以优化专业模型并在长上下文性能和特定领域知识之间实现平衡。
Jul, 2024
该研究引入了一种新的“LLMs-in-the-loop”方法,通过使用合成数据来训练小型的医学翻译模型,证明了这种方法在医学文本翻译中的超越性能,从而为未来的医疗人工智能发展奠定了基础。
Jul, 2024
本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性,发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中,小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设,并强调了在医疗人工智能中需要更严格的评估框架。
Aug, 2024
本研究解决了在医疗领域中,通用大语言模型适应性差和计算成本高的问题。我们提出了两个多语言指令微调数据集,并介绍了一种两阶段训练范式,有效结合了医学知识和任务特定问题的训练。实验结果显示,该方法在英语和多语言基准测试中表现出色,推动了多语言医疗模型的应用潜力。
Sep, 2024