医学问题回答中领域特定语言模型的持续训练和微调
本研究通过比较一般性和专用于医学问答的精简语言模型的性能,旨在填补这方面的空白,并评估不同语言模型家族的性能,以探讨这些模型在医学问答领域的可靠性、比较性能和有效性,从而为不同语言模型在医学领域的特定应用提供有价值的见解。
Jan, 2024
该研究论文介绍了一个基于中医的大型语言模型,通过从事前训练到强化学习与人类反馈(RLHF)的整个训练流程,以及引入一个包含 7 万个真实医患对话的中文多轮医疗对话数据集 CMtMedQA,该模型在多个方面超越了基线模型,并且通过对该模型的进一步改进来提高其指令遵循能力和安全性。
Aug, 2023
使用生成型的大型语言模型,在中医问答领域表现令人不满意,本研究引入了一个专门为中医问答设计的对话模型 MedChatZH,该模型在中医经典著作上进行预训练,并结合医学指南数据进行精细调优,在真实的医学对话数据集上胜过了几个基线模型。我们在链接上发布了我们的模型、代码和数据集,以促进传统中医和大型语言模型领域的进一步研究。
Sep, 2023
本文探讨了如何通过在特定领域数据上进行连续预训练,来适应领域特定需求,以提高医学自然语言处理任务的性能。实验证明,通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。
Apr, 2024
为了解决大型语言模型(LLM)在医学领域中知识局限导致产生虚假医学事实的困境,本研究提出了知识调整的方法,利用结构化的医学知识库帮助 LLMs 有效掌握领域知识,从而实现可靠的回答生成。通过引入基于医学知识库构建的中文医学知识问答数据集 cMedKnowQA,实验结果表明,经过 cMedKnowQA 知识调整的 LLMs 在回答生成上表现出更高的准确性,为 LLMs 的领域适应提供了可靠的新途径。
Sep, 2023
HuaTuo 是基于 LLaMA 模型,使用生成的 QA 实例进行监督微调,以提高其在生物医学领域任务中的表现,实验结果表明,HuaTuo 生成的响应具有更加可靠的医学知识。
Apr, 2023
将大型语言模型(LLMs)整合到医疗保健中存在潜力但也面临挑战。我们提出了一种多阶段训练方法,结合了专业域持续预训练(DCPT)、监督微调(SFT)和直接偏好优化(DPO),并引入一个包含医疗问答、纯文本、知识图谱和对话的 3Gb 中医数据集。通过我们的训练流程,医学 LLM(Qilin-Med)表现出显著的性能提升,突破了 Baichuan-7B 在 CMExam 上的准确率,并在 Huatuo-26M 测试集上超过了 SFT 的性能,在 BLEU-1 和 ROUGE1 上分别达到 16.66 和 27.44。这凸显了我们的训练方法在医疗应用中优化 LLMs 的优势。
Oct, 2023
我们提出了一种新颖的领域特定的中医数据自适应方法,通过使用领域特定语料库对模型进行高效预训练和微调,实现与中医相关任务的高效对齐。我们在两个中医任务上进行了广泛的实验,TCM-GPT-7B 在准确性方面表现最好,分别在准确性上相对增加了 17% 和 12%,在 TCM 领域中验证了拥有 70 亿参数的大型语言模型的领域自适应效果。
Nov, 2023
通过使用多个 70B 参数的大型语言模型以及日本医学问答数据集进行指导调整,我们首次展示了指导调整显著提高了日本医学领域的语言模型在解决日本医学许可考试方面的准确性,超过了 50%。特别是,与英文为中心的模型相比,以日语为中心的模型在通过指导调整方面取得了更大的改进,这凸显了我们地方语言的持续预训练和标记工具的调整的重要性。我们还检验了两种略有不同的提示格式,结果显示有可观的性能改进。
Jun, 2024
该研究旨在解决大型语言模型在医学领域的准确性问题,通过采集汉语医学对话数据库并使用一些技术训练了易于部署的的 ChatGLM-6B 模型,最终可以以较低的成本实现健康医疗目的的 LLM。
Apr, 2023