Jun, 2024
可解释的大型语言模型在欧洲泌尿学指南背景下实现卓越表现:UroBot 研究
Superhuman performance in urology board questions by an explainable large language model enabled for context integration of the European Association of Urology guidelines: the UroBot study
Martin J. Hetz, Nicolas Carl, Sarah Haggenmüller, Christoph Wies, Maurice Stephan Michel...
TL;DR本研究通过使用 OpenAI 的 GPT-3.5、GPT-4 和 GPT-4o 模型,结合检索增强生成(RAG)和欧洲泌尿外科协会(EAU)最新的 2023 年指南,创建和评估了 UroBot,一种泌尿科专用聊天机器人。在欧洲泌尿外科委员会(EBU)的政策评估中,UroBot-4o 以 88.4% 的平均正确率表现优秀,超过了 GPT-4o 10.8%,而其得分为 77.6%。与文献中报道的泌尿科医生的平均表现相比(68.7%),UroBot 不仅具有临床验证性,还表现出良好的一致性和准确性,展示了其在临床整合中的潜力,并提供了进一步开发 UroBot 的必要代码和说明。