Jun, 2024

可解释的大型语言模型在欧洲泌尿学指南背景下实现卓越表现:UroBot 研究

TL;DR本研究通过使用 OpenAI 的 GPT-3.5、GPT-4 和 GPT-4o 模型,结合检索增强生成(RAG)和欧洲泌尿外科协会(EAU)最新的 2023 年指南,创建和评估了 UroBot,一种泌尿科专用聊天机器人。在欧洲泌尿外科委员会(EBU)的政策评估中,UroBot-4o 以 88.4% 的平均正确率表现优秀,超过了 GPT-4o 10.8%,而其得分为 77.6%。与文献中报道的泌尿科医生的平均表现相比(68.7%),UroBot 不仅具有临床验证性,还表现出良好的一致性和准确性,展示了其在临床整合中的潜力,并提供了进一步开发 UroBot 的必要代码和说明。