Oct, 2024
大型语言模型的非学习和对齐的概率视角
A Probabilistic Perspective on Unlearning and Alignment for Large
Language Models
TL;DR本研究解决了大型语言模型(LLMs)评估中的一个关键问题,即现有的确定性评估方法无法准确捕捉模型的输出分布。作者提出了首个形式化的概率评估框架,并通过案例研究表明,传统评估错误地显示模型成功非学习。该研究的创新之处在于引入了新的指标和优化方法,极大地提升了评估可靠性及非学习效果,推动了对大型语言模型更全面的评估。