ChatGPT 在 USMLE 上的表现:揭示大型语言模型为 AI 辅助医学教育的潜力
该研究评估了在阿拉伯语中使用经过微调的 ChatGPT 模型作为个人医疗助手的潜力,并通过自动评估和人工评估证明它在医疗援助方面具有光明前景。
Dec, 2023
在使用真实的大型电子病历数据库进行两项分析后,发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示,准确地完成疾病分类任务,并为卫生保健工作者提供诊断辅助,但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题,并伴随有隐私问题,因此仍不适用于现实世界的临床使用。不过,与传统机器学习工作流程的配置相比,这些模型所需的数据和时间较少,突出了它们在卫生保健应用中的可扩展性潜力。
Jul, 2023
研究试图调查医学数据与闲聊混合对 ChatGPT 提供的医疗建议准确性的影响,结果显示 ChatGPT-4 的准确性比 3.5 版本更高,并且似乎闲聊不会影响其提供医疗建议的能力,这对于理解利用 ChatGPT 和其他 LLM 进行医患互动的潜力和限制是重要的第一步。
Sep, 2023
ChatGPT 在心脏病学和血管病理学领域表现的研究显示其在回答多项选择题方面的准确性较高,具有潜在的在医学教育中有价值的工具的能力。
Apr, 2023
本论文讨论了在线医学诊断相对传统医生就诊日益普及的情况,强调了现有工具的局限性,并强调了 ChatGPT 的优势,该工具可以提供实时个性化的免费医学诊断。该研究总结了一个评估 ChatGPT 在阿拉伯医学诊断中性能的研究,该研究涉及编制一组疾病信息的数据集,并使用不同的提示技术为每种疾病生成多条消息。通过衡量 ChatGPT 的响应与实际疾病之间的相似度来评估其性能。结果显示出有希望的表现,相似度测量的平均分数约为 76%。采用了各种提示技术,其中链式提示显示出相对优势。该研究还记录了 ChatGPT API 的平均响应时间为 6.12 秒,虽然可以接受,但还有改进的空间。尽管 ChatGPT 不能完全取代人工医生,但研究结果表明其在紧急情况和解决一般医学咨询方面具有潜力。总体而言,该研究凸显了 ChatGPT 作为医学领域有价值工具的可行性。
Mar, 2024
研究了大型语言模型在生物医学任务中的性能,并与更简单的模型进行了比较,特别地,探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略,而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。
Apr, 2023
利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估,并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据,并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估,结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答,但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。
Jan, 2024
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
研究了人工智能 GPT4 和 GPT3.5 模型在诊断复杂临床病例时的准确性,结果发现模型在多次尝试后能够正确提供正确的诊断和必要的诊断测试,但在复杂、开放性的情况下存在局限性,未来研究应集中于评估模型在更大数据集上的性能和探索增强临床决策的人机协作策略。
May, 2023
我们评估了 ChatGPT(2023 年 2 月版本),即一个大规模语言模型,在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习,这些练习被用来测试马德里市 Rey Juan Carlos 大学(URJC)的学生。我们对 ChatGPT 生成的回答进行了定性评估,并根据与学生相同的标准评分。我们的结果表明,ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而,ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明,要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之,我们的结果表明,ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而,该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力,以及其在解决概率练习中的表现,显示了它们作为学习助理的潜力。
Oct, 2023