具备 MAD 技能的预训练混合模型
通过深度学习架构的机械设计管道,我们提出了一种新的混合架构,通过集成多种计算基元,利用合成任务对性能进行测试,并验证其在计算和状态最优化方面的表现优于传统架构。
Mar, 2024
介绍一种使用知识蒸馏进行架构间转移的方法,通过将注意力头替换为 Hyena,提供一种高效且经济的大规模语言模型预训练方法,既能处理长篇文本又能提高推理速度和准确性,以在 AI 领域追求可持续发展。
Jan, 2024
本文回顾了混合语言模型在复杂问答(QA,CQA,CPS)中架构和策略的最新进展,指出了提高 LLM 在处理背景知识、安全数据保护、解释性等方面的方法,并探讨了与复杂 QA 相关的挑战及当前解决方案和发展趋势。
Feb, 2023
提出了一种基于一次性 NAS 的高效方法,通过对 LLaMA2-7B 进行微调,并应用基于遗传算法的搜索方法找到更小、计算复杂度较低的网络架构,实现了模型大小减少和吞吐量加速,同时保持了准确性;此方法比修剪或稀疏化技术更有效和高效,并且证明了量化能够进一步减少网络的大小和复杂度,为自动创建适用于廉价、更易得到的硬件平台的大型语言模型提供了解决方案。
May, 2024
本文提出了一种名为 “轻量 Transformer 搜索(LTS)” 的新型网络自动设计算法,利用解码器参数作为感性代理,不需要任何模型训练,直接在目标设备上运行,方便快捷地制定任务性能与硬件成本间的 Pareto 前沿方案,应用到自回归语言模型中可获得高的准确率,同时摆脱了数百个 GPU 小时训练的碳足迹。
Mar, 2022
基于混合 Transformer-Mamba 和专家混合 (MoE) 架构,Jamba 是一个强大的基础大型语言模型,具有资源和目标特定的配置,能够在单个 80GB GPU 上提供高吞吐量和小内存占用,同时在标准语言模型基准测试和长文本上展示出最先进的表现。
Mar, 2024
本文提出了一种名为 FlexiBERT 的灵活多样的异构模型,引入了新的图形相似度嵌入方案和 BOSHNAS 神经体系结构搜索策略,以此解决使用固定维度模型的 NAS 方法所遇到的子优解问题,大大提高了 GLUE 基准的性能。
May, 2022
Flextron 是一种网络架构和后训练模型优化框架,用于灵活的模型部署,并通过样本高效的训练方法和路由算法将现有的 LLM 转换为 Flextron 模型,实现卓越的性能,远优于其他弹性网络和多个端到端训练变体,并且仅需要进行一轮预训练消耗原始预训练的 7.63% 令牌。
Jun, 2024