Apr, 2024
朝着更小、更快的只解码 Transformer:架构变体及其影响
Towards smallers, faster decoder-only transformers: Architectural variants and their implications
Sathya Krishnan Suresh, Shunmugapriya P
TL;DR本研究引入了三种变体(ParallelGPT、LinearlyCompressedGPT 和 ConvCompressedGPT)来修改解码器专用的 Transformer 架构,这些变体在代码生成任务中取得了可比较的性能,同时具有模型尺寸较小和训练时间更快的优势。