Apr, 2024

朝着更小、更快的只解码 Transformer:架构变体及其影响

TL;DR本研究引入了三种变体(ParallelGPT、LinearlyCompressedGPT 和 ConvCompressedGPT)来修改解码器专用的 Transformer 架构,这些变体在代码生成任务中取得了可比较的性能,同时具有模型尺寸较小和训练时间更快的优势。