基于 GPT-3 的医疗会话代理的挑战

Aug, 2023

Challenges of GPT-3-based Conversational Agents for Healthca

Fabian Lechner, Allison Lahnala, Charles Welch, Lucie Flek

TL;DR使用 GPT-3 模型进行医疗问题回答（MedQA）存在挑战和风险，分析表明 LLMs 对高风险的查询无法适当回应，生成错误的医疗信息、不安全的建议和可能被视为冒犯的内容。

Abstract

The potential to provide patients with faster information access while allowing medical specialists to concentrate on critical tasks makes medical domain dialog agents appealing. However, the integration of large-language models (LLMs) into these agents presents certain limitations tha

medical domain dialog agents large-language models gpt-3-based models medical question-answering limitations

发现论文，激发创造

ChatGPT 和大型语言模型在生物医学和健康领域的机遇和挑战

该研究调查了大型语言模型在生物医学和健康领域中的多种应用，包括生物医学信息检索、问答、文本摘要、信息提取和医学教育等，并研究了 LLM 是否具有革新这些任务的能力，发现 LLMs 在生物医学文献生成方面已取得了显著进展，但在其他方面，其进展并不太大。虽然大型语言模型在生物医学与健康领域应用的潜力巨大，但其使用也存在某些风险和挑战，例如可疑生成的信息以及涉及敏感病人数据的法律和隐私问题。

Jun, 2023

评估 GPT-3.5 和 GPT-4 在支持医疗服务实际信息需求方面的作用

本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后，通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明，虽然这两个模型能够提供安全和可信的响应，但往往不能满足给定问题的特定信息需求。

Apr, 2023

评估针对患者个性化电子病历问题的 AI 聊天机器人

本文探讨了使用人工智能聊天机器人，基于临床笔记回答特定患者问题的实用性，评估并比较了多种大型语言模型系统（ChatGPT（3.5 和 4 版本），Google Bard 和 Claude）所生成的答案的准确性和相关性。

Jun, 2023

利用大型语言模型（如 ChatGPT 或 GPT-4）作为临床助手的潜力和风险

在使用真实的大型电子病历数据库进行两项分析后，发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示，准确地完成疾病分类任务，并为卫生保健工作者提供诊断辅助，但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题，并伴随有隐私问题，因此仍不适用于现实世界的临床使用。不过，与传统机器学习工作流程的配置相比，这些模型所需的数据和时间较少，突出了它们在卫生保健应用中的可扩展性潜力。

Jul, 2023

ChatGPT 能成为您的个人医疗助手吗？

该研究评估了在阿拉伯语中使用经过微调的 ChatGPT 模型作为个人医疗助手的潜力，并通过自动评估和人工评估证明它在医疗援助方面具有光明前景。

Dec, 2023

大型语言模型准备好应用于医疗保健了吗？临床语言理解的比较研究

本研究通过对临床语言理解任务的全面评估和引入一种新的提示策略 —— 自问自答提示（SQP），来提高大型语言模型 (GPT-3.5、GPT-4 和 Bard) 在医疗相关任务中的性能，同时还提供了有关挑战性关系抽取任务误差分布和潜在改进方法的有价值洞察。此项研究为之后的研究和开发医疗应用奠定了基础。

Apr, 2023

开发生物和医学 ChatGPT：生物医学问答的完整概述

通过自然语言处理和多模态范式，ChatGPT 探索了医学诊断、治疗建议和其他医疗支持的问题回答的战略蓝图，在医学领域数据的逐渐整合下，这些技术加快了医学领域问题回答的进展，通过连接人类自然语言与医学领域知识或专家手动注释的空白，处理了医学环境下大规模、多样化、不平衡或无标签数据分析的场景，强调了在不同任务和数据集中的应用，并概述了当前的挑战和未来医学领域研究的机遇和创新。

Jan, 2024

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据，并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估，结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。

Jan, 2024

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023