CollectiveSFT: 利用集体指令扩展大型语言模型在中文医疗基准测试中的应用

Jul, 2024

CollectiveSFT: 利用集体指令扩展大型语言模型在中文医疗基准测试中的应用

CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare

Jingwei Zhu, Minghuan Tan, Min Yang, Ruixue Li, Hamid Alinejad-Rokny

TL;DR本研究针对中文综合医疗基准（CMB）中大型语言模型（LLM）性能提升的问题，提出了一种通过多样化和分布均匀的数据集来优化模型性能的新方法。研究发现，即便是较小的模型只要使用精心策划的多样化数据集，也能达到与大型模型相媲美的表现，强调了数据集质量和多样性在微调过程中的重要性。

Abstract

The rapid progress in Large Language Models (LLMs) has prompted the creation of numerous benchmarks to evaluate their capabilities.This study focuses on the Comprehensive Medical Benchmark in Chinese (CMB), showcasing how dataset diversity and distribution in →

发现论文，激发创造

在CMExam上对大型语言模型进行基准测试——一份综合的中文医学考试数据集

通过引入 CMExam 数据集，该研究在医学领域中解决了对大型语言模型进行评估的挑战，同时还通过对CMExam的深入分析，详细介绍了LLMs在中国医学中的表现和挑战。

Jun, 2023

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估LLMs在基准生物医学任务中的性能。为此，我们对26个数据集中6个不同生物医学任务的4种流行LLMs进行了全面评估。据我们所知，这是第一次在生物医学领域对各种LLMs进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的LLMs甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使LLMs在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个LLM能够胜过其他LLMs，不同LLMs的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023

麒麟医: 多阶段知识注入的先进医疗大型语言模型

将大型语言模型（LLMs）整合到医疗保健中存在潜力但也面临挑战。我们提出了一种多阶段训练方法，结合了专业域持续预训练（DCPT）、监督微调（SFT）和直接偏好优化（DPO），并引入一个包含医疗问答、纯文本、知识图谱和对话的3Gb中医数据集。通过我们的训练流程，医学LLM（Qilin-Med）表现出显著的性能提升，突破了Baichuan-7B在CMExam上的准确率，并在Huatuo-26M测试集上超过了SFT的性能，在BLEU-1和ROUGE1上分别达到16.66和27.44。这凸显了我们的训练方法在医疗应用中优化LLMs的优势。

Oct, 2023

MEDITRON-70B：用于大型语言模型的医学预训练扩展

通过发布具有7B和70B参数的开源LLMs套件MEDITRON，我们改进了对大规模医学LLMs的访问，并在多个医学测试中显示出显著的性能提升。与闭源LLMs相比，MEDITRON-70B在GPT-3.5和Med-PaLM上表现优异，并且与GPT-4和Med-PaLM-2相差不到5%和10%。

Nov, 2023

MedBench：一个用于评估医学大型语言模型的大规模中文基准

为了解决医学大语言模型的评估工作耗时且需要大量人力的问题，我们引入了MedBench，这是一个综合性的基准测试，包括来自医学各领域的40,041个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估，MedBench建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

Dec, 2023

医疗领域中的大型语言模型: 一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

MedBench：一个全面、标准和可靠的用于评估中文医学大型语言模型的基准系统

在中国背景下建立的医学大型语言模型的评估过程，使用MedBench作为一个全面、标准化、可靠的基准系统，提供了最大的评估数据集，包括43个临床专业，实现了动态评估机制，为准备中国医学LLM的实际应用奠定了重要基础。

Jun, 2024

面向医疗的大型语言模型评估与构建

本研究提出了MedS-Bench，旨在评估大型语言模型在临床环境中的表现，填补了现有基准的不足。通过开发MedS-Ins数据集，我们为医学领域提供了大量指令微调的数据，能够有效提升模型在复杂临床任务上的表现。我们的成果不仅展示了MMedIns-Llama 3的优越性，还通过公开数据集促进了医疗领域的进一步研究与发展。

Aug, 2024

面向医疗的多语言大语言模型民主化：通过两阶段指令微调方法

本研究解决了在医疗领域中，通用大语言模型适应性差和计算成本高的问题。我们提出了两个多语言指令微调数据集，并介绍了一种两阶段训练范式，有效结合了医学知识和任务特定问题的训练。实验结果显示，该方法在英语和多语言基准测试中表现出色，推动了多语言医疗模型的应用潜力。

Sep, 2024

在合理低计算资源下开发和双语评估的日本医疗大语言模型

本研究解决了医疗行业对低资源本地化大语言模型的需求，尤其是在安全性方面面临的挑战。我们提出了一种基于7B模型的医疗适配方案，评估其在日本和英语的医疗问答基准测试中的表现，结果显示其性能达到或超过现有的十倍大模型。此研究为临床机构实际应用LLMs提供了重要的财务支持。

Sep, 2024