Feb, 2024

追踪信誉动态:重新审视大型语言模型的预训练时期

TL;DR通过对大型语言模型的早期预训练进行线性探测和互信息探测,本文揭示了预训练中大型语言模型在可靠性、隐私、有害性、公平性和稳定性等方面的潜力,为揭示预训练中的可信性建模进行了初步探索。