Feb, 2024

DenseFormer: 通过深度加权平均增强 Transformer 中的信息流传

TL;DR提出了 DenseFormer 这种简单修改的转换器架构,通过在每个转换器模块之后添加一个平均步骤来改进模型的困惑度,减少了内存消耗和推理时间,并且在相同困惑度下表现优于转换器基线模型。