人工智能中生成式大型语言模型的高效部署方法的综述
Dec, 2023
我们研究了小型语言模型在通过自然语言交互促进应用程序使用方面的有效性。我们的重点是微软内部用于云供应链履行的特定应用程序。我们的实验表明,即使在小型数据集上进行微调,小模型在准确性和运行时间方面也能胜过大型模型。除了这些结果,我们还强调基于 SLM 的系统设计考虑。
May, 2024
通过创建示例池来代表每种语言模型较可靠回答的上下文类型,并利用经过微调的句子嵌入使上下文相似性接近对话状态相似性,本研究提出了一种新颖的 SLM/LLM 路由框架,旨在提高计算效率并增强任务性能,在对话状态跟踪任务中,相较于仅依赖 LLMs,所提出的路由框架显著提高性能,同时减少计算成本超过 50%。
Nov, 2023
通过引入一系列研究工作,本文介绍了超小型语言模型 (STLMs) 的创新技术和高性能表现,包括字节级的分词和汇聚机制、参数联系以及高效的训练策略,以实现与传统模型相比参数数量减少了 90% 至 95% 的竞争性表现,未来的研究将探索包括无分词模型、基于自我博弈的训练以及替代训练目标等多个子问题,旨在使高性能语言模型在更广泛的应用领域中更具可访问性和实用性。
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
Apr, 2024
通过引入准确而高效的开源 0.5 亿参数的小语言模型 MobiLlama,本文探讨了在资源受限设备上设计准确但高效的小语言模型的挑战,并关注性能提升和资源需求降低,以满足隐私、安全和可持续性部署的需求。
Feb, 2024
基于多模型队列管理框架 QLM,通过模型交换、请求驱逐、GPU-CPU 状态交换、负载均衡和温启动模型等方法,最大化达到 SLO 并提高吞吐量,有效解决了大语言模型的延迟挑战。
Jun, 2024
本文通过在大规模行业数据集上进行广泛实验,发现大多数 LLMs 的中间层是多余的,并提出了一种名为 SLMRec 的基于小型语言模型的推荐模型,仅使用 LLM-based 推荐模型中 13% 的参数,同时在训练和推断时间成本上实现了高达 6.6 倍和 8.0 倍的加速。
我们提出了一种混合方法,结合不同规模的语言模型以提高自回归解码的效率,同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记,然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比,我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升,但只有 1-2% 的性能损失。
通过开展大量模型和数据维度的可扩展研究,我们引入了 MiniCPM,这是一种高效资源的替代模型,旨在探索小型语言模型在未来大型语言模型研究中的潜力,并通过模型收敛和数据适应来优化比例关系。