model trustworthiness | BriefGPT

关键词model trustworthiness

搜索结果 - 5

我们能信任 LLMs 吗？通过知识传递减轻 LLMs 中的过度自信偏见
使用知识传递方法，通过链式思维探究缓解 LLMs 中的过度自信偏差以提高其可靠性，实验评估表明知识传递方法在多个指标上优于传统的 Fine-tuning 和 QA 方法，强调了该方法在提升模型可信度和准确性方面的潜力。
PDFa month ago
ACL大型语言模型中的置信度和概率一致性调查
通过使用各种数据集和提示技术，本研究探索了大型语言模型（LLMs）内部信心与其对外表达的一致性，其中 OpenAI 的 GPT-4 表现出最强的信心 - 概率对齐性，并有助于评估 LLMs 的风险和提高对模型可信度的认识。
PDFa month ago
度量模型可信度的实证最优风险用于故障检测
AI 系统中的失败检测是安全关键任务部署的重要保障，通过计算最优风险覆盖曲线下的区域和模型在此最优点上的性能，我们提出了衡量失败检测方法适用性和模型可信度的指标，通过实验验证了其有效性。
PDFa year ago
重新思考 AI 的可解释性与合理性
本文研究机器解释符合人类交流规范、支持人类推理过程并满足人类对人工解释的需求的重要性，指出仅仅优化和评估机器解释的合理性（Explanation Plausibility）对于提高模型的可理解性、透明性与可信度是有害无益的，因此提出了一些可
PDFa year ago
EMNLP不借助监督探索忠实句级解释
本研究提出了一种不同于传统管道式或强化学习方法的可微分训练框架，以在句子层面仅应用目标任务监督来输出具有可信度的原因，并在三个不同数据集上展示了竞争性表现和更好的性能。
PDF4 years ago