朝着更小、更快的只解码 Transformer：架构变体及其影响

Apr, 2024

朝着更小、更快的只解码 Transformer：架构变体及其影响

Towards smallers, faster decoder-only transformers: Architectural variants and their implications

Sathya Krishnan Suresh, Shunmugapriya P

TL;DR本研究引入了三种变体（ParallelGPT、LinearlyCompressedGPT 和 ConvCompressedGPT）来修改解码器专用的 Transformer 架构，这些变体在代码生成任务中取得了可比较的性能，同时具有模型尺寸较小和训练时间更快的优势。

Abstract

Research on large language models (LLMs) has recently seen exponential growth, largely focused on transformer-based architectures, as introduced by [1] and further advanced by the decoder-only variations in [2].

large language models transformer-based architectures decoder-only transformer architecture parallelgpt model sizes

发现论文，激发创造

LiteTransformerSearch: 用于高效语言模型的无需训练的神经结构搜索

本文提出了一种名为 “轻量 Transformer 搜索（LTS）” 的新型网络自动设计算法，利用解码器参数作为感性代理，不需要任何模型训练，直接在目标设备上运行，方便快捷地制定任务性能与硬件成本间的 Pareto 前沿方案，应用到自回归语言模型中可获得高的准确率，同时摆脱了数百个 GPU 小时训练的碳足迹。

Mar, 2022

LLM 外科医生

通过数据驱动的预训练模型压缩方法，我们可以在不牺牲性能的情况下，对大型语言模型进行剪枝，减小模型的规模。

Dec, 2023

大型语言模型的概念与实施调查

基于 Transformer 架构的大型语言模型（LLMs）的近期进展在自然语言处理（NLP）应用领域展示了显著的拓宽范围，超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用，重点关注 GPT 系列，对人工智能（AI）驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究，同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展，Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究，突出了其多功能性和在实际应用领域中转型的潜力，从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。

Mar, 2024

从文本到转型：大型语言模型多功能性的全面评述

这项开创性的研究探讨了大型语言模型（LLMs）如生成式预训练变换器（GPT）和双向编码器表示来自变换器（BERT）在技术、金融、医疗保健、教育等各个领域的广泛应用。尽管它们在自然语言处理（NLP）方面已经展现出卓越的能力，但这些 LLMs 在健身、整体福祉、城市规划、气候建模以及灾害管理等领域尚未得到系统性的研究，本综述除了提供对 LLMs 在不同领域的广泛应用进行全面分析外，还揭示了 LLMs 潜力尚未被利用的研究空白和领域。这项研究发现了 LLMs 在健身福祉、城市规划、气候建模和灾害响应等领域留下印记的创新方式，可以激发未来在这些领域的研究和应用。

Feb, 2024

OPT：开放预训练 Transformer 语言模型

我们呈现了 Open Pre-trained Transformers (OPT)，一个解码器型的预训练 transformers 套件，范围从 125M 到 175B 个参数，这些我们希望与感兴趣的研究人员完全和负责任地分享。我们展示了 OPT-175B 与 GPT-3 相媲美，同时仅需要 1/7 的碳足迹进行开发。

May, 2022

关于语音到文本和大型语言模型集成的仅解码器架构

该研究介绍了 Speech-LLaMA，一种将声学信息有效地整合到基于文本的大型语言模型中的新方法，并进一步探索了仅解码器架构在语音处理任务中的应用。

Jul, 2023

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

跳到结论：利用线性转换简化 Transformer

通过使用线性转换法，我们展示了在语言模型中激活层早期的内部决策过程，这种方法不仅可以产生更加精确的近似结果，还具有节省计算资源的优点。

Mar, 2023

高效压缩子层的 Transformer 解码器

通过压缩 Transformer 模型的 decoder 层中 sub-layers 构建模块，提出了 Compressed Attention Network，实现了更高的并行性，性能与强基线相当，速度加快 1.42 倍。

Jan, 2021

基于 Transformer 的语言模型

本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文，提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构，其中 Coordinate Architecture Search（CAS）通过迭代模型的精炼来找到一个有效的架构，实验结果表明 CAS 在所有问题上的 perplexities 达到了 20.42 ~ 34.11，即比最先进的 LSTM 提高了 12.0 perplexity 单位。

Apr, 2019