具备 MAD 技能的预训练混合模型

Jun, 2024

Pretrained Hybrids with MAD Skills

Nicholas Roberts, Samuel Guo, Zhiqi Gao, Satya Sai Srinath Namburi GNVV, Sonia Cromp...

TL;DRManticore 是一个自动化设计混合体系结构的框架，通过重用预训练模型创建预训练混合体，实现了语言模型选择、预训练混合体的构建以及对预训练混合体进行编程的功能，并在长距离竞技场任务上取得强大的性能。

Abstract

While transformers underpin modern large language models (LMs), there is a growing list of alternative architectures with new capabilities, promises, and tradeoffs. This makes choosing the right LM architecture challenging. Recently-proposed $\textit{→

transformers hybrid architectures manticore pretrained hybrids neural architecture search (nas)

发现论文，激发创造

混合架构的机理设计与缩放

通过深度学习架构的机械设计管道，我们提出了一种新的混合架构，通过集成多种计算基元，利用合成任务对性能进行测试，并验证其在计算和状态最优化方面的表现优于传统架构。

Mar, 2024

拾獲的鬣狗：将 Transformer 精简为长卷积模型

介绍一种使用知识蒸馏进行架构间转移的方法，通过将注意力头替换为 Hyena，提供一种高效且经济的大规模语言模型预训练方法，既能处理长篇文本又能提高推理速度和准确性，以在 AI 领域追求可持续发展。

Jan, 2024

复杂问答与语言模型的混合架构，调研

本文回顾了混合语言模型在复杂问答（QA，CQA，CPS）中架构和策略的最新进展，指出了提高 LLM 在处理背景知识、安全数据保护、解释性等方面的方法，并探讨了与复杂 QA 相关的挑战及当前解决方案和发展趋势。

Feb, 2023

LLaMA-NAS：大规模语言模型高效神经架构搜索

提出了一种基于一次性 NAS 的高效方法，通过对 LLaMA2-7B 进行微调，并应用基于遗传算法的搜索方法找到更小、计算复杂度较低的网络架构，实现了模型大小减少和吞吐量加速，同时保持了准确性；此方法比修剪或稀疏化技术更有效和高效，并且证明了量化能够进一步减少网络的大小和复杂度，为自动创建适用于廉价、更易得到的硬件平台的大型语言模型提供了解决方案。

May, 2024

通过隐含组合进行算法归纳的任务无关架构

提出一种理论框架构建统一的深度网络架构，基于 Transformer 模型以及离散学习框架，以解决当前构建通用网络的挑战。

Apr, 2024

LiteTransformerSearch: 用于高效语言模型的无需训练的神经结构搜索

本文提出了一种名为 “轻量 Transformer 搜索（LTS）” 的新型网络自动设计算法，利用解码器参数作为感性代理，不需要任何模型训练，直接在目标设备上运行，方便快捷地制定任务性能与硬件成本间的 Pareto 前沿方案，应用到自回归语言模型中可获得高的准确率，同时摆脱了数百个 GPU 小时训练的碳足迹。

Mar, 2022

HuSpaCy 中的混合还原

本文提出了一种混合词形还原器，使用神经模型、字典和手工规则的混合架构，在广泛使用的匈牙利语数据集上获得了实验结果，并发表了三种 HuSpaCy 模型。

Jun, 2023

Jamba：混合 Transformer-Mamba 语言模型

基于混合 Transformer-Mamba 和专家混合 (MoE) 架构，Jamba 是一个强大的基础大型语言模型，具有资源和目标特定的配置，能够在单个 80GB GPU 上提供高吞吐量和小内存占用，同时在标准语言模型基准测试和长文本上展示出最先进的表现。

Mar, 2024

FlexiBERT：当前的 Transformer 架构是否过于同质化和僵化？

本文提出了一种名为 FlexiBERT 的灵活多样的异构模型，引入了新的图形相似度嵌入方案和 BOSHNAS 神经体系结构搜索策略，以此解决使用固定维度模型的 NAS 方法所遇到的子优解问题，大大提高了 GLUE 基准的性能。

May, 2022

Flextron: 多合一弹性大语言模型

Flextron 是一种网络架构和后训练模型优化框架，用于灵活的模型部署，并通过样本高效的训练方法和路由算法将现有的 LLM 转换为 Flextron 模型，实现卓越的性能，远优于其他弹性网络和多个端到端训练变体，并且仅需要进行一轮预训练消耗原始预训练的 7.63% 令牌。

Jun, 2024