Feb, 2024

GPT-4 在基于 USMLE 的病例研究中的评估

TL;DR本研究探讨了 GPT-4 在医疗应用中的性能评估,使用简单的提示技术从美国医学执照考试问卷中提取问题作为提示,任务是在提问前和提问后评估它的置信度得分。分为有反馈和无反馈两组问题进行分类,实验结果表明反馈会影响相对置信度但并不一致地增加或减少。这项研究对于 AI 可靠性的讨论具有重要意义,特别是在医疗领域中的 LLM 类模型(如 GPT-4),为优化反馈机制以提升 AI 辅助医学教育和决策支持提供了有价值的见解。