PharmacyGPT:AI 药师
PharmGPT is a suite of multilingual LLMs specifically trained on a comprehensive corpus tailored to the Bio-Pharmaceutical and Chemical sectors, demonstrating exceptional capability in domain-specific tasks, addressing the existing gap in specialized language modeling, and paving the way for more effective applications of NLP in specialized domains.
Jun, 2024
本研究比较分析了三种生成式预训练转换模型(GPT)在问答环境中的应用:Drug-GPT 3、Drug-GPT 4 和 ChatGPT,并且将其应用于医疗保健领域。研究的目标是确定哪个模型在回答关于特应性皮炎(AD)患者经历和与糖尿病相关的医疗专业人员(HCP)讨论的问题时能提供最准确和相关的信息。结果表明,虽然这三种模型都能生成相关和准确的回答,但 Drug-GPT 3 和 Drug-GPT 4 这两种模型通过病患和医疗专业人员社交媒体和留言板帖子的筛选数据提供了更有针对性和深入的见解。ChatGPT 这种更通用的模型生成了更宽泛和一般性的回答,对于希望获得对主题的整体理解的读者来说可能是有价值的,但可能缺乏 Drug-GPT 模型生成答案中的深度和个人见解。这项比较分析强调了在评估医疗保健应用中生成信息的有用性时考虑语言模型的观点、知识深度和时效性的重要性。
Jul, 2023
大型语言模型(LLMs)在医疗领域的整合潜在地可以通过开发具有共情能力,面向患者的聊天机器人,显著增强患者护理和支持。本研究调查了一个有趣的问题:相较于通常由医生提供的,ChatGPT 能否提供更高程度的共情回应?为了回答这个问题,我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集,并使用 ChatGPT 生成了备选回复。我们的分析包括了一种新的共情评级(EMRank)评估方法,评估回复的共情程度,该方法涵盖了自动化指标和人工评估。我们的研究结果表明,由 LLM 驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力,这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性,还提出了一套有效的自动共情评级指标,为 LLM 在医疗领域更广泛的应用铺平了道路。
May, 2024
探索大型语言模型 (LLMs) 在医学应用方面的潜力,特别是在药物监测事件提取方面的 ChatGPT 的能力。我们进行了广泛的实验,评估了 ChatGPT 在药物监测事件提取任务中的性能,并采用了各种提示和演示选择策略。研究结果表明,虽然 ChatGPT 在适当的演示选择策略下表现出了合理的性能,但与完全微调的小型模型相比仍然有所不足。此外,我们探索了利用 ChatGPT 进行数据增强的潜力。然而,我们的研究发现将合成数据引入微调可能会导致性能下降,可能是由于 ChatGPT 生成的标签中存在噪声。为了减轻这个问题,我们探索了不同的过滤策略,并发现在适当的方法下可以实现更稳定的性能,尽管不断改进仍然具有挑战性。
Feb, 2024
本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后,通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明,虽然这两个模型能够提供安全和可信的响应,但往往不能满足给定问题的特定信息需求。
Apr, 2023
通过三种优化策略,我们引入了专门设计用于眼科学的 EyeGPT,该模型的综合评估框架包括不同领域的眼科学数据集、不同用户和多样化的查询意图。该模型在可理解性、可信度和同理心方面与人类眼科医生相当,为开发专门的大型语言模型在眼科学中提供了有价值的见解。
Feb, 2024
在使用真实的大型电子病历数据库进行两项分析后,发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示,准确地完成疾病分类任务,并为卫生保健工作者提供诊断辅助,但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题,并伴随有隐私问题,因此仍不适用于现实世界的临床使用。不过,与传统机器学习工作流程的配置相比,这些模型所需的数据和时间较少,突出了它们在卫生保健应用中的可扩展性潜力。
Jul, 2023
本研究旨在探讨利用预训练的大型语言模型 (ChatGPT) 进行数据增强来识别电子病历中的关键因素,结果表明基于 ChatGPT 的数据增强对药物识别和药物事件分类任务的性能提高有益。
Jun, 2023
评估 ChatGPT 在门诊指导中提供的回复一致性,包括版本内回复分析和版本间比较,结果表明 ChatGPT-4.0 的内部回复一致性显著高于 ChatGPT-3.5,并且两者的最佳推荐都具有中等一致性。然而,版本间的一致性相对较低,指示两个版本之间几乎没有匹配的推荐。此外,只有 50%的最佳推荐在比较中完全匹配。ChatGPT-3.5 的回复更可能是完整的,相较于 ChatGPT-4.0,这表明两个版本之间存在信息处理和回复生成的可能差异。这些发现提供了关于 AI 辅助门诊运作的见解,同时也促进了对 LLM 在医疗利用中的潜力和限制的探索。未来的研究可能会根据人体工程学和人因原则,精确地根据有效门诊分诊的特定需求,谨慎优化 LLM 和 AI 在医疗系统中的整合。
Apr, 2024
通过对 USMLE 和 MultiMedQA 基准数据集的全面评估,我们发现不需要专门的提示造型来激发 GPT-4,它的表现超过了 USMLE 的合格分数约 20 分,并表现优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行细化调整的模型(Med-PaLM,Flan-PaLM540B 的提示调整版本)。
Mar, 2023