Oct, 2023
使用风险调整置信度评分提升大型语言模型鲁棒性的形式化与方法
A Formalism and Approach for Improving Robustness of Large Language
Models Using Risk-Adjusted Confidence Scores
TL;DR尽管大型语言模型在自然语言处理方面取得了令人瞩目的成就,但它们也存在重要的风险。本文定义和形式化了决策风险和综合风险这两种不同类型的风险,并提出了评估这些风险的风险中心化评估框架和四个新指标。最后,我们提出了一种名为DwD的风险调整校准方法,帮助大型语言模型在整体自然语言推理架构中降低这些风险。实验证明了评估框架的实用性以及DwD在降低决策风险和综合风险方面的功效。