可解释的大型语言模型在欧洲泌尿学指南背景下实现卓越表现：UroBot 研究

Jun, 2024

可解释的大型语言模型在欧洲泌尿学指南背景下实现卓越表现：UroBot 研究

Superhuman performance in urology board questions by an explainable large language model enabled for context integration of the European Association of Urology guidelines: the UroBot study

PDF

Martin J. Hetz, Nicolas Carl, Sarah Haggenmüller, Christoph Wies, Maurice Stephan Michel...

TL;DR本研究通过使用 OpenAI 的 GPT-3.5、GPT-4 和 GPT-4o 模型，结合检索增强生成（RAG）和欧洲泌尿外科协会（EAU）最新的 2023 年指南，创建和评估了 UroBot，一种泌尿科专用聊天机器人。在欧洲泌尿外科委员会（EBU）的政策评估中，UroBot-4o 以 88.4% 的平均正确率表现优秀，超过了 GPT-4o 10.8%，而其得分为 77.6%。与文献中报道的泌尿科医生的平均表现相比（68.7%），UroBot 不仅具有临床验证性，还表现出良好的一致性和准确性，展示了其在临床整合中的潜力，并提供了进一步开发 UroBot 的必要代码和说明。

Abstract

large language models (LLMs) are revolutionizing medical Question-Answering (medQA) through extensive use of medical literature. However, their performance is often hampered by outdated training data and a lack of explainability, which limits clinical applicability. This study aimed to

large language models urobot urology-specialized chatbot clinician-verifiability performance assessment

发现论文，激发创造

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023

开源大型语言模型 GPT-4 和 Claude 2 的比较研究：肾脏病学中的多项选择测试

该研究调查了大型语言模型（LLMs）在内科专科多项选择测试能力方面的医学知识能力，与 GPT-4 和 Claude 2 相比，当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。

Aug, 2023

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据，并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估，结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。

Jan, 2024

评估针对患者个性化电子病历问题的 AI 聊天机器人

本文探讨了使用人工智能聊天机器人，基于临床笔记回答特定患者问题的实用性，评估并比较了多种大型语言模型系统（ChatGPT（3.5 和 4 版本），Google Bard 和 Claude）所生成的答案的准确性和相关性。

Jun, 2023

在眼科中对大型语言模型（LLM）人工智能聊天机器人进行微调并使用 GPT-4 进行 LLM 评估

通过与人类医学专家的对齐评估，评估 GPT-4 对由经过微调的 LLM 聊天机器人生成的与眼科相关的患者问题回答的准确性，结果显示 GPT-4 评估在临床一致性方面具有显著优势，有潜力简化 LLM 应用于医疗健康领域的临床评估，提供一种有效自动的评估方式来协助未来 LLM 应用的验证。

Feb, 2024

在医疗领域中提高大型语言模型中的事实准确性的 UMLS 增强框架

我们的研究开发了一个基于统一医学语言系统（UMLS）的增强型大型语言模型（LLMs）框架，通过自动和医师评估等方法，实验证明了该框架有效地提高了生成内容的准确性、完整性和相关性，同时突出了大型语言模型在医学问答中的潜在应用价值。

Oct, 2023

AI 聊天机器人从患者的病情投诉中进行疾病预测的可靠性

人工智能聊天机器人在预测疾病方面的可靠性进行了研究，结果表明虽然聊天机器人的准确性有所差异，但它们都无法足够可靠地进行重要的医疗决策，强调了对严格的验证和人类监督的必要性。

May, 2024

多项选择题与大型语言模型：以虚构医疗数据为例的案例研究

利用模拟医学考题的方法评估大型语言模型在医学领域的表现，发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力，而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法，以更好地评估大型语言模型在医学背景下的真实能力。

Jun, 2024

使用检索增强语言模型提高 GPT-3/4 在生物医学数据上的准确性

本文研究了大型语言模型在特定领域中的性能，比较了多种模型回答 DLBCL 疾病的问题，发现 RetA 模型在准确性和相关性方面表现最好。

May, 2023

大型语言模型的临床文档动态问答

利用大型语言模型 (LLMs) 对临床记录进行动态问答的自然语言接口引入了一种新的方法。我们的聊天机器人通过 Langchain 和基于变压器的 LLMs 实现，允许用户用自然语言查询并从临床记录中获得相关答案。经过利用各种嵌入模型和先进的 LLMs 的实验表明，Wizard Vicuna 具有更高的准确性，尽管计算需求较高。模型优化，包括重量量化，使延迟时间提高了约 48 倍。有希望的结果表明，充分利用临床记录的价值和推进基于 AI 的临床决策的发展还面临一些挑战，如模型幻觉和有限的多样化医疗案例评估。解决这些差距对于释放临床记录的价值和推进基于 AI 的临床决策具有重要意义。

Jan, 2024