估计大型语言模型置信度的方法
该研究通过应用大型语言模型(LLMs),特别是 GPT-3.5 和 GPT-4,结合思维链(CoT),对学生科学评估中的写作回答进行自动评分的应用进行了调查,并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明,GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能,并且使用 CoT 能够提高评分准确性,特别是当与项目描述和评分标准一起使用时。
Nov, 2023
维护用户信任的关键是通过使用含糊概率,提高大型语言模型的置信度估计;此外,使用语言置信度和替代模型概率的组合方法在评估置信度时表现出色。
Nov, 2023
通过使用各种数据集和提示技术,本研究探索了大型语言模型(LLMs)内部信心与其对外表达的一致性,其中 OpenAI 的 GPT-4 表现出最强的信心 - 概率对齐性,并有助于评估 LLMs 的风险和提高对模型可信度的认识。
May, 2024
本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍(MCI)的患者的能力,并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求,突显了将大型语言模型应用于医疗诊断的潜力,前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性,从而提高大型语言模型在医疗决策中的可信度。
Dec, 2023
研究了 GPT-3.5 在实际世界中具有强大推理能力和专业领域知识的应用能力,使用了多项提示方法(CoT、零和少量训练以及检索增强),并在医学考试和阅读理解领域取得了人类水平表现。
Jul, 2022
本研究探讨了 GPT-4 在医疗应用中的性能评估,使用简单的提示技术从美国医学执照考试问卷中提取问题作为提示,任务是在提问前和提问后评估它的置信度得分。分为有反馈和无反馈两组问题进行分类,实验结果表明反馈会影响相对置信度但并不一致地增加或减少。这项研究对于 AI 可靠性的讨论具有重要意义,特别是在医疗领域中的 LLM 类模型(如 GPT-4),为优化反馈机制以提升 AI 辅助医学教育和决策支持提供了有价值的见解。
Feb, 2024
通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分,结果显示 Llama-7b 表现最差,均方误差最高,而 ChatGPT 表现出色,科恩卡帕分数达到 0.53。此外,所选模型均优先考虑用户隐私,允许用户删除自己进行的会话。
Sep, 2023
利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估,并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据,并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估,结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答,但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。
Jan, 2024
大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果,但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估,认为这些测试实际上只测量了模型输出的自我一致性,而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP,通过比较模型的输入贡献与答案预测及生成解释之间的一致性,从而更准确地衡量模型的忠诚度。
Nov, 2023