IvyGPT: 医学领域中的互动式中文路径语言模型

Jul, 2023

IvyGPT: 医学领域中的互动式中文路径语言模型

IvyGPT: InteractiVe Chinese pathwaY language model in medical domain

Rongsheng Wang, Yaofei Duan, ChanTong Lam, Jiexi Chen, Jiangsheng Xu...

TL;DR通过高质量的医学问答实例和人类反馈进行训练和微调的基于 LaMA 的 IvyGPT，具有较好的多轮对话能力，并能输出接近人类的丰富诊断和治疗答案，超过其他医学 GPT 模型。

Abstract

General large language models (LLMs) such as ChatGPT have shown remarkable success. However, such LLMs have not been widely adopted for medical purposes, due to poor accuracy and inability to provide medical advi

large language models ivygpt medical purposes medical question-answer reinforcement learning

发现论文，激发创造

中荆：通过专家反馈和实际多轮对话提升大型语言模型的中医能力

该研究论文介绍了一个基于中医的大型语言模型，通过从事前训练到强化学习与人类反馈（RLHF）的整个训练流程，以及引入一个包含 7 万个真实医患对话的中文多轮医疗对话数据集 CMtMedQA，该模型在多个方面超越了基线模型，并且通过对该模型的进一步改进来提高其指令遵循能力和安全性。

Aug, 2023

ChiMed-GPT：具备全面训练机制且更符合人类偏好的中文医学大型语言模型

近年来，对优质医疗服务的需求日益增长，凸显了医疗基础设施中的差异。随着大数据，特别是文本，成为医疗服务的基石，迫切需要专为医疗领域量身定制的有效自然语言处理（NLP）解决方案。我们提出了 ChiMed-GPT，这是一个专为中国医疗领域设计的新型基准大语言模型，其上下文长度扩展为 4,096 个标记，并经历了全面的预训练、有监督微调和强化学习高强度训练过程。在信息提取、问题回答和对话生成等真实世界任务中的评估结果表明，ChiMed-GPT 在医疗领域的性能优于一般领域的大语言模型。此外，通过要求 ChiMed-GPT 执行涉及对患者歧视的态度评定，我们分析了可能存在的偏见，以促进医疗领域大语言模型的负责任开发。代码和模型已经在此 URL 发布。

Nov, 2023

DoctorGLM：细调您的中文医生并非力大无比的任务

该研究旨在解决大型语言模型在医学领域的准确性问题，通过采集汉语医学对话数据库并使用一些技术训练了易于部署的的 ChatGLM-6B 模型，最终可以以较低的成本实现健康医疗目的的 LLM。

Apr, 2023

HuatuoGPT，驯化语言模型成为医生

HuatuoGPT 是一款用于医学咨询的大型语言模型，通过结合 ChatGPT 的蒸馏数据和医生的实际数据进行监督精调，并使用增强学习模型以更好地利用两种数据的优势，表现出出色的实验效果。

May, 2023

儿科 GPT：用于儿科应用的大型语言模型作为中国医学助手

通过创建高质量数据集 PedCorpus 和应用系统性和稳健的训练流程构建了中国首个儿科大型语言模型助手 PediatricsGPT，以改善诊断效率，解决中国医疗资源匮乏的问题。

May, 2024

MedChatZH：一个更好的医疗顾问从更好的指南中学习

使用生成型的大型语言模型，在中医问答领域表现令人不满意，本研究引入了一个专门为中医问答设计的对话模型 MedChatZH，该模型在中医经典著作上进行预训练，并结合医学指南数据进行精细调优，在真实的医学对话数据集上胜过了几个基线模型。我们在链接上发布了我们的模型、代码和数据集，以促进传统中医和大型语言模型领域的进一步研究。

Sep, 2023

临床 GPT：基于多样医疗数据微调的大型语言模型和全面评估

本研究介绍了一种专门为临床场景设计和优化的语言模型 ——ClinicalGPT，通过整合大量临床实际数据、领域特定知识和多轮次对话信息，使其更好地处理多种临床任务，并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型，突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。

Jun, 2023

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据，并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估，结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。

Jan, 2024

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

大型语言模型是否能够对医学问题进行推理？

研究了 GPT-3.5 在实际世界中具有强大推理能力和专业领域知识的应用能力，使用了多项提示方法（CoT、零和少量训练以及检索增强），并在医学考试和阅读理解领域取得了人类水平表现。

Jul, 2022