评估 ChatGPT 在门诊分诊指导中的应用：一项比较研究

Apr, 2024

评估 ChatGPT 在门诊分诊指导中的应用：一项比较研究

Evaluating the Application of ChatGPT in Outpatient Triage Guidance: A Comparative Study

Dou Liu, Ying Han, Xiandi Wang, Xiaomei Tan, Di Liu...

TL;DR评估 ChatGPT 在门诊指导中提供的回复一致性，包括版本内回复分析和版本间比较，结果表明 ChatGPT-4.0 的内部回复一致性显著高于 ChatGPT-3.5，并且两者的最佳推荐都具有中等一致性。然而，版本间的一致性相对较低，指示两个版本之间几乎没有匹配的推荐。此外，只有 50％的最佳推荐在比较中完全匹配。ChatGPT-3.5 的回复更可能是完整的，相较于 ChatGPT-4.0，这表明两个版本之间存在信息处理和回复生成的可能差异。这些发现提供了关于 AI 辅助门诊运作的见解，同时也促进了对 LLM 在医疗利用中的潜力和限制的探索。未来的研究可能会根据人体工程学和人因原则，精确地根据有效门诊分诊的特定需求，谨慎优化 LLM 和 AI 在医疗系统中的整合。

Abstract

The integration of artificial intelligence (AI) in healthcare presents a transformative potential for enhancing operational efficiency and health outcomes. →

artificial intelligence healthcare large language models outpatient triage response consistency

发现论文，激发创造

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023

ChatGPT-HealthPrompt。利用 ChatGPT 在基于提示的医疗决策支持中发挥 XAI 的力量

该研究提出了一种创新的方法，在临床决策中应用大型语言模型（LLMs），重点关注 OpenAI 的 ChatGPT。我们的方法介绍了在数据稀缺情况下，采用上下文提示（策略性地设计了包括任务描述、特征描述和领域知识整合的提示）进行高质量二元分类任务的应用。我们的研究探索了 LLMs 基于零样本和少样本提示学习的动态性，通过比较 OpenAI 的 ChatGPT 在不同数据条件下与传统监督式机器学习模型的性能，旨在提供对不同数据可用性下提示工程策略有效性的见解。这篇论文架起了人工智能和医疗保健之间的桥梁，提出了一种新的 LLMs 在临床决策辅助系统中的应用方法，并强调了提示设计、领域知识整合和灵活学习方法在增强自动化决策方面的变革潜力。

Aug, 2023

ChatGPT 能成为您的个人医疗助手吗？

该研究评估了在阿拉伯语中使用经过微调的 ChatGPT 模型作为个人医疗助手的潜力，并通过自动评估和人工评估证明它在医疗援助方面具有光明前景。

Dec, 2023

ChatGPT 在基于自然语言处理的心理健康应用中的评估

该研究评估了基于大型语言模型 ChatGPT 在三种文本分类任务中的表现，并发现零 - shot 分类准确度表明语言模型对心理健康分类任务具有潜在的应用价值。

Mar, 2023

评估 GutGPT 的可用性：针对胃肠道出血风险的 AI 临床决策支持系统的模拟研究

研究通过临床模拟场景中与医学专业人员的互动评价 GutGPT 对医生接受和信任人工智能临床决策支持系统（AI-CDSS）的影响，结果显示 GutGPT 在技术接受度上产生了不同的效果，但在模拟性能方面则改善了内容掌握能力。该研究表明，如果实施得当并与交互界面配对，GutGPT 等大型语言模型可以提升有效的 AI-CDSS。

Dec, 2023

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

比较 GPT-4 与 Chat-GPT 在心理健康护理中的功效：对大型语言模型进行盲评估以支持心理辅导

该研究比较了两个大型语言模型 GPT-4 和 Chat-GPT 在回应 18 个心理提示方面的表现，以评估它们在心理健康护理环境中的潜在适用性。结果显示 GPT-4 在生成临床相关和富有同理心的回应方面更有效，提供更好的支持和指导。这项研究为大型语言模型在心理健康护理领域的适用性提供了贡献，强调了在该领域持续研究和开发的重要性。需要进一步研究了解造成两个模型性能差异的具体因素，并探索其在不同人群和心理健康状况中的普适性。

May, 2024

药物 - GPT 和 ChatGPT LLMs 对医疗洞察的比较分析：在患者和医疗专业人员背景下评估准确性和相关性

本研究比较分析了三种生成式预训练转换模型（GPT）在问答环境中的应用：Drug-GPT 3、Drug-GPT 4 和 ChatGPT，并且将其应用于医疗保健领域。研究的目标是确定哪个模型在回答关于特应性皮炎（AD）患者经历和与糖尿病相关的医疗专业人员（HCP）讨论的问题时能提供最准确和相关的信息。结果表明，虽然这三种模型都能生成相关和准确的回答，但 Drug-GPT 3 和 Drug-GPT 4 这两种模型通过病患和医疗专业人员社交媒体和留言板帖子的筛选数据提供了更有针对性和深入的见解。ChatGPT 这种更通用的模型生成了更宽泛和一般性的回答，对于希望获得对主题的整体理解的读者来说可能是有价值的，但可能缺乏 Drug-GPT 模型生成答案中的深度和个人见解。这项比较分析强调了在评估医疗保健应用中生成信息的有用性时考虑语言模型的观点、知识深度和时效性的重要性。

Jul, 2023

利用大型语言模型（如 ChatGPT 或 GPT-4）作为临床助手的潜力和风险

在使用真实的大型电子病历数据库进行两项分析后，发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示，准确地完成疾病分类任务，并为卫生保健工作者提供诊断辅助，但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题，并伴随有隐私问题，因此仍不适用于现实世界的临床使用。不过，与传统机器学习工作流程的配置相比，这些模型所需的数据和时间较少，突出了它们在卫生保健应用中的可扩展性潜力。

Jul, 2023

将 ChatGPT 集成到安全医院网络：以改进放射学报告分析为案例研究

通过对比学习的独特句级知识蒸馏方法，本研究首次在医院内将类似 ChatGPT 的基于云的 AI 模型转化为安全模型，用于分析放射学报告并优先考虑患者数据隐私。我们实现了超过 95% 的异常检测准确率，并可以准确标记预测的不确定性，提高了医生的可靠性和可解释性，从而在医疗保健领域为开发安全高效的 AI 工具取得重要进展，为无监督的医院内 AI 应用提供了有希望的未来。

Feb, 2024