对齐调优是否真的破坏了大型语言模型的内部自信度?
对齐的语言模型在多选题设置下多显示过于自信的输出答案,我们系统评估了对齐过程对语言模型的逻辑回归置信度校准的影响,并提出了易于实施且高效的校准方法。
Oct, 2023
评估语言模型预测的可靠性和置信度以及解决其与AI安全需求的关系是一项重要研究领域,本文综述了语言模型置信度估计和校准的方法、技术和挑战,并提出了未来研究的方向。
Nov, 2023
通过对大型语言模型的可靠性进行置信度校准的系统检查,我们评估了在预训练和对齐训练阶段中不同训练设置(如参数尺度和训练数据)对模型校准的影响,并对生成、真实性和理解等方面进行了全面的评估。
Nov, 2023
通过对基于SFT和RLHF的对齐方法的分析,我们发现通过ICL方法URIAL,使得基于语言模型的对齐方法不再需要SFT或RLHF来实现高效对齐,并且实验证明URIAL的性能与基于SFT或SFT+RLHF的方法相媲美甚至更优。这些结果表明,对于未来的LLM研究来说,更深入的对齐分析和理论理解至关重要。
Dec, 2023
通过引入统一的校准框架,以及发展三种度量和两种置信度引导方法,提高大规模语言模型的校准能力,并进行了实验验证,进一步展示了大型模型不一定保证更好的校准,校准性能依赖于度量,自一致性方法在基准数据集上表现优异,通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性,此研究不仅挑战了现有大规模语言模型校准的概念,还提供了改善长文生成可信度的实用方法。
Feb, 2024
通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型(LLM)预测的准确度。在多个开放和闭源模型上进行广泛评估,结果表明基于一致性的校准方法优于现有的事后方法,并提供了选择适用于不同LLMs特性的合适一致性度量标准的实用指南。
Feb, 2024
通过使用合成数据训练可调整的模型,我们提出了一种解耦大型语言模型和对齐过程的方法,以确保其在大多数应用中的安全性和实用性,并减少对齐对性能的潜在负面影响。我们通过训练一个“道德”对齐器模型并从实证角度验证其有效性来阐明我们的方法。
Mar, 2024
我们提出了一个适用于大规模语言模型(LLM)的校准方法——温度计(THERMOMETER),该方法能够通过学习辅助模型来校准LLM,具有高效计算、保持LLM准确性以及为新任务生成更好校准响应的特点,经过多个基准测试的广泛实证评估证明该方法的有效性。
Feb, 2024
通过将语言模型置信度分解为问题的不确定性和答案的忠诚度,我们提出了一种即插即用的方法来估计语言模型的置信度,并在4个MCQA数据集上对6个RLHF-LM进行实验,展现了良好的校准性能。此外,我们提出了两个新的评估指标IPR和CE,对模型的校准性进行了详细讨论,希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。
Apr, 2024
本文研究针对大型语言模型的对齐微调对模型的影响,并通过理论和实证分析回答了这个问题。我们发现对齐微调过程对对齐的破坏程度远超于预训练,可能是数量级上的差距,从而导致模型性能迅速下降并最终恢复到预训练阶段的分布,同时发现模型的弹性与模型大小增加和预训练数据的扩展具有正相关性。这一发现表明了驯化大型语言模型固有的弹性的重要性,从而克服大型语言模型对对齐微调的抵抗。
Jun, 2024