Feb, 2024
从大型语言模型中校正长文生成
Calibrating Long-form Generations from Large Language Models
TL;DR通过引入统一的校准框架,以及发展三种度量和两种置信度引导方法,提高大规模语言模型的校准能力,并进行了实验验证,进一步展示了大型模型不一定保证更好的校准,校准性能依赖于度量,自一致性方法在基准数据集上表现优异,通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性,此研究不仅挑战了现有大规模语言模型校准的概念,还提供了改善长文生成可信度的实用方法。