Oct, 2023

Sliceformer:在判别任务中将多头注意力变得简单如排序

TL;DR我们提出了 Sliceformer 作为 Transformer 的替代模型,通过简单的切片排列操作实现了高效的计算和普适的效果,同时可以有效抑制数据表示中的模式坍缩风险。