MobileNMT:使 15MB 和 30ms 内进行翻译成为可能
本文介绍了 MobileBERT,它是一种用于压缩和加速流行的 BERT 模型的方法,通过使用瓶颈结构和仔细设计的自我关注和前馈网络之间的平衡来实现。实证研究表明,MobileBERT 比 BERT_BASE 小 4.3 倍,比 BERT_BASE 快 5.5 倍,并在众所周知的基准测试中取得了有竞争力的结果。
Apr, 2020
本论文研究了如何通过采用轻量级解码器和词汇筛选来加速多语言神经机器翻译的推理速度,而不影响翻译质量,使用 BLEU 和 chrF 进行实验验证,并进行了健壮性评估和人类评估。
Sep, 2021
大规模基于 transformer 的模型如 BERT,可以转换为针对资源受限边缘设备优化的 FlatBuffer 格式,用于声誉分析等任务,其性能较好且具有隐私保护特性。
Oct, 2023
为了在移动设备上高效部署大型语言模型,我们提出了四种优化技术:基于符号表达式的动态模型推断,操作符优化和执行优先级设置,FP4 量化方法以减少反量化开销,以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求,并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比,我们的引擎在填充速度上实现了超过 10 倍的加速,并在解码速度上实现了 2~3 倍的加速。
Mar, 2024
机器学习中的 Transformers 引领了一场革命,但由于其运行时要求,不能广泛用于移动设备。该研究通过创建自动化基础设施 MELT 来评估大型语言模型在移动设备上的执行情况,并对性能、能效和准确性进行了量化。结果表明,移动设备的执行存在性能差异,LLM 的执行主要受内存限制。量化可以显著减少内存需求,但会带来一定的准确性损失。同时,作者认为生态系统仍处于初级阶段,并预测 NPU 加速和框架设备协同设计是实现有效独立执行的最佳选择。
Mar, 2024
AI 领域近年来取得了显著的进展,尤其是基于变压器架构的强大大型语言模型(LLMs)的出现。本文介绍了一种创新的 LLM 推理方法,展望了在无需网络连接的情况下,拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手,而且通过原生代码和模型量化技术的结合,还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力,同时保护了用户的隐私并消除了延迟问题。
Sep, 2023
通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制,我们提出了一种名为 MobileLLM 的强基线网络,它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外,我们还提出了一种即时的分块权重共享方法,不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度,相较于 MobileLLM 125M/350M。此外,MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升,并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性,突显了小型模型在常见设备使用情景中的能力。
Feb, 2024
本研究提出一种混合精度量化策略,将 Transformer 权重表示为极低位数(例如小于 3 位),该压缩策略使得在设备上实现高效的神经机器翻译变得可行,实现了模型大小 11.8 倍的减小,内存占用减少 8.3 倍,速度提高 3.5 倍,同时 BLEU 低于 - 0.5。
Sep, 2020
通过使用较少参数和定量化等模型压缩技术,MobileAIBench 评估了多尺寸、定量化水平和任务,并在真实设备上测量延迟和资源消耗,旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察,加速移动 AI 研究和部署。
Jun, 2024