Jun, 2023

迭代分段仿射逼近(IPA)用于语言建模

TL;DR本研究利用一阶泰勒展开对一般函数进行近似,引入迭代和分段建模提出了 IPA 算法并应用于语言建模,通过与 Transformers 进行比较,将 IPA 算法在小的序列长度下的交叉熵损失的下一个标记预测任务中表现出了与 Transformers 架构惊人的相似性,IPA 算法的表现优于 Transformers 1.5%。