温度计: 面向大型语言模型的通用校准

Feb, 2024

温度计: 面向大型语言模型的通用校准

Thermometer: Towards Universal Calibration for Large Language Models

Maohao Shen, Subhro Das, Kristjan Greenewald, Prasanna Sattigeri, Gregory Wornell...

TL;DR我们提出了一个适用于大规模语言模型（LLM）的校准方法——温度计(THERMOMETER)，该方法能够通过学习辅助模型来校准LLM，具有高效计算、保持LLM准确性以及为新任务生成更好校准响应的特点，经过多个基准测试的广泛实证评估证明该方法的有效性。

Abstract

We consider the issue of calibration in large language models (LLM). Recent studies have found that common interventions such as instruction tuning often result in poorly calibrated →