Jul, 2024

LLM 微调的学习动态

TL;DR通过分析不同响应之间的逐步分解和积累影响,我们研究了大型语言模型在微调过程中的学习动态,为指令调整和偏好调整的热门算法的训练提供了统一解释,并找到了一个简单有效的方法来进一步提高对齐性能。