Oct, 2023

使用风险调整置信度评分提升大型语言模型鲁棒性的形式化与方法

TL;DR尽管大型语言模型在自然语言处理方面取得了令人瞩目的成就,但它们也存在重要的风险。本文定义和形式化了决策风险和综合风险这两种不同类型的风险,并提出了评估这些风险的风险中心化评估框架和四个新指标。最后,我们提出了一种名为 DwD 的风险调整校准方法,帮助大型语言模型在整体自然语言推理架构中降低这些风险。实验证明了评估框架的实用性以及 DwD 在降低决策风险和综合风险方面的功效。