Nov, 2024

回归,而非猜测——一种针对语言模型数字 token 的类回归损失

TL;DR本研究解决了语言模型在数字生成和数量推理(特别是算术)方面的不足。我们提出了两种数字 token 损失函数,以克服传统交叉熵损失的局限性,这些损失函数通过度量生成的数字 token 与真实值之间的距离,显著提高了模型的数字准确性,尤其是在标准 T5 模型上表现突出。