Mar, 2024

Transformer 网络的拓扑结构

TL;DR通过拓扑理论的视角对变压器神经网络的表达能力进行理论分析,发现许多常见的神经网络架构可以嵌入到分段线性函数的前拓扑中,而变压器必须位于其拓扑完成中,并且指出这两种网络家族实例化了不同的逻辑片段:前者是一阶的,而变压器是高阶推理器,并且将其分析与架构搜索和梯度下降相类比,将其整合到了对测控系统的框架中。