Jun, 2021

Transformer是深度无限维非Mercer二元核机器

TL;DR本文提出了一种新的理解Transformer模型的视角——将其核心操作Dot-product attention视为Banach空间对的核学习方法,从而推导出该模型具有无限特征维数。同时,本文还将标准核学习问题扩展到了二元情境,并证明了新型非Mercer核机器的表现定理,该定理表明学习函数元素具有再生核Banach空间而非希尔伯特空间的特征。最后,我们在Transformer中实验了新的核方法,结果表明标准Transformer核的无限维特征在其优秀表现中起到了一定的作用。