Aug, 2023

CausalLM 不适用于上下文学习

TL;DR本文以理论方法分析了前缀语言模型(prefixLM)和因果语言模型(causalLM)在一定参数构建下的收敛行为,理论和实证结果表明,前缀语言模型(prefixLM)在线性回归问题中收敛至最优解,而因果语言模型(causalLM)的收敛动态遵循在线梯度下降算法,其在样本数无限增长情况下无法保证最优解,同时经实验验证了因果语言模型(causalLM)在所有设置下表现不如前缀语言模型(prefixLM)。