CohortGPT: 临床研究参与者招募的增强型 GPT
研究使用大型语言模型(LLMs)协助患者和转诊医生从广泛的选择中筛选适合的临床试验,并评估了 TrialGPT 在 184 名患者和 18,238 个注释临床试验的实验结果,表明其高准确性和排名排除不合格候选试验的有效性。
Jul, 2023
使用 InstructGPT 帮助医生根据患者的医疗概况确定临床试验的资格,通过组合一次性、选择推论和思考链技术,将 LLM 应用于 10 个合成患者概况,并有医生参与辅助判断,可实现 1.0 的召回率和 0.71 的精确率。
Apr, 2023
研究了大型语言模型在生物医学任务中的性能,并与更简单的模型进行了比较,特别地,探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略,而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。
Apr, 2023
探索大型语言模型 (LLMs) 在医学应用方面的潜力,特别是在药物监测事件提取方面的 ChatGPT 的能力。我们进行了广泛的实验,评估了 ChatGPT 在药物监测事件提取任务中的性能,并采用了各种提示和演示选择策略。研究结果表明,虽然 ChatGPT 在适当的演示选择策略下表现出了合理的性能,但与完全微调的小型模型相比仍然有所不足。此外,我们探索了利用 ChatGPT 进行数据增强的潜力。然而,我们的研究发现将合成数据引入微调可能会导致性能下降,可能是由于 ChatGPT 生成的标签中存在噪声。为了减轻这个问题,我们探索了不同的过滤策略,并发现在适当的方法下可以实现更稳定的性能,尽管不断改进仍然具有挑战性。
Feb, 2024
近年来,对优质医疗服务的需求日益增长,凸显了医疗基础设施中的差异。随着大数据,特别是文本,成为医疗服务的基石,迫切需要专为医疗领域量身定制的有效自然语言处理(NLP)解决方案。我们提出了 ChiMed-GPT,这是一个专为中国医疗领域设计的新型基准大语言模型,其上下文长度扩展为 4,096 个标记,并经历了全面的预训练、有监督微调和强化学习高强度训练过程。在信息提取、问题回答和对话生成等真实世界任务中的评估结果表明,ChiMed-GPT 在医疗领域的性能优于一般领域的大语言模型。此外,通过要求 ChiMed-GPT 执行涉及对患者歧视的态度评定,我们分析了可能存在的偏见,以促进医疗领域大语言模型的负责任开发。代码和模型已经在此 URL 发布。
Nov, 2023
本研究介绍了一种专门为临床场景设计和优化的语言模型 ——ClinicalGPT,通过整合大量临床实际数据、领域特定知识和多轮次对话信息,使其更好地处理多种临床任务,并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型,突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。
Jun, 2023
应用基于提示的大型语言模型在临床试验中基于资格标准对患者进行分类的研究提供了有希望的分数,并提出了一种利用 SNOMED CT 本体论进行提取式摘要的方法,该方法也可以应用于其他医学文本。
Apr, 2024
本文介绍了 Radiology-GPT,它是专门为放射学领域设计的大型语言模型,通过在广泛的放射学领域知识数据集上进行指令调整,Radiology-GPT 在放射诊断、研究和沟通方面表现出优越性能,是未来临床自然语言处理发展的催化剂,并且为将生成型大型语言模型定位到特殊医疗专业方向提供了可能性,同时确保符合 HIPPA 的隐私标准。
Jun, 2023
该研究通过应用大型语言模型(LLMs),特别是 GPT-3.5 和 GPT-4,结合思维链(CoT),对学生科学评估中的写作回答进行自动评分的应用进行了调查,并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明,GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能,并且使用 CoT 能够提高评分准确性,特别是当与项目描述和评分标准一起使用时。
Nov, 2023
在使用真实的大型电子病历数据库进行两项分析后,发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示,准确地完成疾病分类任务,并为卫生保健工作者提供诊断辅助,但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题,并伴随有隐私问题,因此仍不适用于现实世界的临床使用。不过,与传统机器学习工作流程的配置相比,这些模型所需的数据和时间较少,突出了它们在卫生保健应用中的可扩展性潜力。
Jul, 2023