估计大型语言模型置信度的方法

Nov, 2023

Methods to Estimate Large Language Model Confidence

Maia Kotelanski, Robert Gallo, Ashwin Nayak, Thomas Savage

TL;DR评估测量大型语言模型（LLMs）在复杂医学任务中提供诊断建议时的置信度的方法，结果发现 SC Agreement Frequency 是测量 GPT4 置信度最有用的方法。

Abstract

large language models have difficulty communicating uncertainty, which is a significant obstacle to applying LLMs to complex medical tasks. This study evaluates methods to measure LLM confidence when suggesting a

large language models uncertainty measuring model confidence clinical vignettes diagnostic accuracy

发现论文，激发创造

应用大型语言模型和思维链路实现自动评分

该研究通过应用大型语言模型（LLMs），特别是 GPT-3.5 和 GPT-4，结合思维链（CoT），对学生科学评估中的写作回答进行自动评分的应用进行了调查，并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明，GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能，并且使用 CoT 能够提高评分准确性，特别是当与项目描述和评分标准一起使用时。

Nov, 2023

羊驼明白 GPT 无法显示的东西：置信度估计的代理模型

维护用户信任的关键是通过使用含糊概率，提高大型语言模型的置信度估计；此外，使用语言置信度和替代模型概率的组合方法在评估置信度时表现出色。

Nov, 2023

大型语言模型中的置信度和概率一致性调查

通过使用各种数据集和提示技术，本研究探索了大型语言模型（LLMs）内部信心与其对外表达的一致性，其中 OpenAI 的 GPT-4 表现出最强的信心 - 概率对齐性，并有助于评估 LLMs 的风险和提高对模型可信度的认识。

May, 2024

医学术语分类中的大型语言模型及响应与推理的意外不一致

本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍（MCI）的患者的能力，并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求，突显了将大型语言模型应用于医疗诊断的潜力，前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性，从而提高大型语言模型在医疗决策中的可信度。

Dec, 2023

大型语言模型是否能够对医学问题进行推理？

研究了 GPT-3.5 在实际世界中具有强大推理能力和专业领域知识的应用能力，使用了多项提示方法（CoT、零和少量训练以及检索增强），并在医学考试和阅读理解领域取得了人类水平表现。

Jul, 2022

GPT-4 在基于 USMLE 的病例研究中的评估

本研究探讨了 GPT-4 在医疗应用中的性能评估，使用简单的提示技术从美国医学执照考试问卷中提取问题作为提示，任务是在提问前和提问后评估它的置信度得分。分为有反馈和无反馈两组问题进行分类，实验结果表明反馈会影响相对置信度但并不一致地增加或减少。这项研究对于 AI 可靠性的讨论具有重要意义，特别是在医疗领域中的 LLM 类模型（如 GPT-4），为优化反馈机制以提升 AI 辅助医学教育和决策支持提供了有价值的见解。

Feb, 2024

探索大型语言模型在通过思维链路提示进行反思评估方法中的效力

通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分，结果显示 Llama-7b 表现最差，均方误差最高，而 ChatGPT 表现出色，科恩卡帕分数达到 0.53。此外，所选模型均优先考虑用户隐私，允许用户删除自己进行的会话。

Sep, 2023

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据，并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估，结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。

Jan, 2024

关于衡量自然语言解释的可信度

大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果，但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估，认为这些测试实际上只测量了模型输出的自我一致性，而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP，通过比较模型的输入贡献与答案预测及生成解释之间的一致性，从而更准确地衡量模型的忠诚度。

Nov, 2023

PACE: 使用 GPT-4 提升和增强的信心校准，用于云事件根因分析

通过调用扩增语言模型，在云事故的根本原因分析中提高置信度评估，从而有效提升云事故管理的效率。

Sep, 2023