对齐调优是否真的破坏了大型语言模型的内部自信度?
对齐的语言模型在多选题设置下多显示过于自信的输出答案,我们系统评估了对齐过程对语言模型的逻辑回归置信度校准的影响,并提出了易于实施且高效的校准方法。
Oct, 2023
评估语言模型预测的可靠性和置信度以及解决其与AI安全需求的关系是一项重要研究领域,本文综述了语言模型置信度估计和校准的方法、技术和挑战,并提出了未来研究的方向。
Nov, 2023
通过对大型语言模型的可靠性进行置信度校准的系统检查,我们评估了在预训练和对齐训练阶段中不同训练设置(如参数尺度和训练数据)对模型校准的影响,并对生成、真实性和理解等方面进行了全面的评估。
Nov, 2023
通过对基于SFT和RLHF的对齐方法的分析,我们发现通过ICL方法URIAL,使得基于语言模型的对齐方法不再需要SFT或RLHF来实现高效对齐,并且实验证明URIAL的性能与基于SFT或SFT+RLHF的方法相媲美甚至更优。这些结果表明,对于未来的LLM研究来说,更深入的对齐分析和理论理解至关重要。
Dec, 2023
通过引入统一的校准框架,以及发展三种度量和两种置信度引导方法,提高大规模语言模型的校准能力,并进行了实验验证,进一步展示了大型模型不一定保证更好的校准,校准性能依赖于度量,自一致性方法在基准数据集上表现优异,通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性,此研究不仅挑战了现有大规模语言模型校准的概念,还提供了改善长文生成可信度的实用方法。
Feb, 2024
通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型(LLM)预测的准确度。在多个开放和闭源模型上进行广泛评估,结果表明基于一致性的校准方法优于现有的事后方法,并提供了选择适用于不同LLMs特性的合适一致性度量标准的实用指南。
Feb, 2024
我们提出了一个适用于大规模语言模型(LLM)的校准方法——温度计(THERMOMETER),该方法能够通过学习辅助模型来校准LLM,具有高效计算、保持LLM准确性以及为新任务生成更好校准响应的特点,经过多个基准测试的广泛实证评估证明该方法的有效性。
Feb, 2024
通过将语言模型置信度分解为问题的不确定性和答案的忠诚度,我们提出了一种即插即用的方法来估计语言模型的置信度,并在4个MCQA数据集上对6个RLHF-LM进行实验,展现了良好的校准性能。此外,我们提出了两个新的评估指标IPR和CE,对模型的校准性进行了详细讨论,希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。
Apr, 2024
本研究解决了大语言模型在生成长输出时能力不均的问题,特别是由于缺乏长输出训练数据造成的缺口。我们提出了一种基于高质量数据的调优方法,通过精心策划的数据,展示了在仅有少量训练数据和计算资源的情况下,依然可以显著提升模型的长输出能力。研究结果表明,该方法在不同模型上均能有效改善表现,且我们已公开相关数据集和模型实现,促进了该领域的进一步研究。
Oct, 2024
该研究解决了大型语言模型(LLMs)在长文本生成中常见的幻觉问题,并提出了一种新的原子校准方法,能够以细粒度评估事实准确性。实验结果表明,原子校准不仅适用于长文本生成,还能提升整体校准效果,揭示了模型信心水平的动态变化。
Oct, 2024