朝着帕累托最优吞吐量的小语言模型服务

Apr, 2024

朝着帕累托最优吞吐量的小语言模型服务

Towards Pareto Optimal Throughput in Small Language Model Serving

Pol G.Recasens, Yue Zhu, Chen Wang, Eun Kyung Lee, Olivier Tardieu...

TL;DR通过实验和分析，本文旨在对小型语言模型的推理性能和能量效率进行基准测试，并得出结论说明模型复制可以有效提高服务小型语言模型时的资源利用率。

Abstract

large language models (LLMs) have revolutionized the state-of-the-art of many different natural language processing tasks. Although serving LLMs is computationally and memory demanding, the rise of small language models

large language models small language models resource-constrained users benchmarking model replication

发现论文，激发创造

朝向高效的生成式大型语言模型服务：从算法到系统的调研

人工智能中生成式大型语言模型的高效部署方法的综述

Dec, 2023

应用交互的小型语言模型：案例研究

我们研究了小型语言模型在通过自然语言交互促进应用程序使用方面的有效性。我们的重点是微软内部用于云供应链履行的特定应用程序。我们的实验表明，即使在小型数据集上进行微调，小模型在准确性和运行时间方面也能胜过大型模型。除了这些结果，我们还强调基于 SLM 的系统设计考虑。

May, 2024

OrchestraLLM: 较高效的对话状态跟踪语言模型编排

通过创建示例池来代表每种语言模型较可靠回答的上下文类型，并利用经过微调的句子嵌入使上下文相似性接近对话状态相似性，本研究提出了一种新颖的 SLM/LLM 路由框架，旨在提高计算效率并增强任务性能，在对话状态跟踪任务中，相较于仅依赖 LLMs，所提出的路由框架显著提高性能，同时减少计算成本超过 50%。

Nov, 2023

超小型语言模型

通过引入一系列研究工作，本文介绍了超小型语言模型 (STLMs) 的创新技术和高性能表现，包括字节级的分词和汇聚机制、参数联系以及高效的训练策略，以实现与传统模型相比参数数量减少了 90% 至 95% 的竞争性表现，未来的研究将探索包括无分词模型、基于自我博弈的训练以及替代训练目标等多个子问题，旨在使高性能语言模型在更广泛的应用领域中更具可访问性和实用性。

May, 2024

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

MobiLlama：面向准确轻量级全透明的 GPT

通过引入准确而高效的开源 0.5 亿参数的小语言模型 MobiLlama，本文探讨了在资源受限设备上设计准确但高效的小语言模型的挑战，并关注性能提升和资源需求降低，以满足隐私、安全和可持续性部署的需求。

Feb, 2024

只需一个队列：解决大型语言模型服务中的头部阻塞问题

基于多模型队列管理框架 QLM，通过模型交换、请求驱逐、GPU-CPU 状态交换、负载均衡和温启动模型等方法，最大化达到 SLO 并提高吞吐量，有效解决了大语言模型的延迟挑战。

Jun, 2024

SLMRec: 增强小型语言模型在顺序推荐任务中的能力

本文通过在大规模行业数据集上进行广泛实验，发现大多数 LLMs 的中间层是多余的，并提出了一种名为 SLMRec 的基于小型语言模型的推荐模型，仅使用 LLM-based 推荐模型中 13% 的参数，同时在训练和推断时间成本上实现了高达 6.6 倍和 8.0 倍的加速。

May, 2024

自动生成巨大，快速生成：快速自回归解码的 LLM-to-SLM

我们提出了一种混合方法，结合不同规模的语言模型以提高自回归解码的效率，同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记，然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比，我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升，但只有 1-2% 的性能损失。

Feb, 2024

MiniCPM: 小型语言模型的潜力与可伸缩的训练策略揭示

通过开展大量模型和数据维度的可扩展研究，我们引入了 MiniCPM，这是一种高效资源的替代模型，旨在探索小型语言模型在未来大型语言模型研究中的潜力，并通过模型收敛和数据适应来优化比例关系。

Apr, 2024