评估 ChatGPT 家族模型在生物医学推理和分类中的表现
本文旨在评估 ChatGPT 在生物医学领域中各种基准任务(如关系提取、文档分类、问答和摘要)的性能,在拥有较小训练集的生物医学数据集中,zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型(如 BioGPT 和 BioBART),这表明 ChatGPT 在生物医学领域也非常专业,具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。
Jun, 2023
该研究调查了大型语言模型在生物医学和健康领域中的多种应用,包括生物医学信息检索、问答、文本摘要、信息提取和医学教育等,并研究了 LLM 是否具有革新这些任务的能力,发现 LLMs 在生物医学文献生成方面已取得了显著进展,但在其他方面,其进展并不太大。虽然大型语言模型在生物医学与健康领域应用的潜力巨大,但其使用也存在某些风险和挑战,例如可疑生成的信息以及涉及敏感病人数据的法律和隐私问题。
Jun, 2023
在使用真实的大型电子病历数据库进行两项分析后,发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示,准确地完成疾病分类任务,并为卫生保健工作者提供诊断辅助,但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题,并伴随有隐私问题,因此仍不适用于现实世界的临床使用。不过,与传统机器学习工作流程的配置相比,这些模型所需的数据和时间较少,突出了它们在卫生保健应用中的可扩展性潜力。
Jul, 2023
基于大型语言模型(LLMs)的研究和应用在生物信息学领域有着巨大潜力和效力,该研究通过分析各种关键生物信息学任务,证明了 LLMs(如 GPT 变体)在给定适当提示的情况下可以成功处理大多数任务,同时也分析了在复杂生物信息学任务中的局限性。
Feb, 2024
本文评估了商业 Large Language Models (LLMs) GPT-3.5-Turbo 和 GPT-4 在 2023 BioASQ 挑战的任务中的表现,其中 0-shot learning 和相关段落达到了竞争水平。
Jun, 2023
本研究评估了使用 ChatGPT 回答医学问题的可靠性,结果发现 ChatGPT 的答案更加上下文相关,代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具,但研究表明还有提高其准确性的空间。
Jun, 2023
该研究评估了在阿拉伯语中使用经过微调的 ChatGPT 模型作为个人医疗助手的潜力,并通过自动评估和人工评估证明它在医疗援助方面具有光明前景。
Dec, 2023
本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现,并对其识别错误进行了分析,提出了在 BioNLP 应用中使用 LLMs 的建议。
May, 2023
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估,并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据,并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估,结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答,但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。
Jan, 2024