超小型语言模型
本文介绍了 TinyStories 数据集和一种新的评估语言模型的方法,该数据集使用 GPT-3.5 和 GPT-4 生成,只包含 3 到 4 岁儿童通常理解的单词。使用 TinyStories 可以训练和评估比现有模型小得多的语言模型,并引入新的评估范式来评估这些模型的语言能力和多维度的得分,例如语法、创造性和连贯性等。这可以促进低资源或专业领域的语言模型的发展、分析和研究,并提高对于语言模型能力的认识。
May, 2023
研究论文重点探讨了大型语言模型(LLMs)在实际工业环境中面临的挑战,比较了经过微调的紧凑型 LLMs(如 FLAN-T5、TinyLLaMA、LiteLLaMA)与零样本大型 LLMs(如 LLaMA-2、GPT-3.5、PaLM-2)在会议摘要任务上的性能表现,结果发现 FLAN-T5 是一个比较适宜的成本效益高、实际工业部署的解决方案。
Feb, 2024
通过实证研究基于一个亿参数的小型语言模型,在神经网络结构、参数初始化和优化策略三个方面分析了每个组件的影响,找到了多个设计公式,如令牌压缩、结构微调、参数继承和多轮训练等,证实了它们对小型语言模型的有效性,进一步优化和改进模型的效果明显,验证了其优越性能。
Feb, 2024
通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制,我们提出了一种名为 MobileLLM 的强基线网络,它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外,我们还提出了一种即时的分块权重共享方法,不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度,相较于 MobileLLM 125M/350M。此外,MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升,并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性,突显了小型模型在常见设备使用情景中的能力。
Feb, 2024
通过开展大量模型和数据维度的可扩展研究,我们引入了 MiniCPM,这是一种高效资源的替代模型,旨在探索小型语言模型在未来大型语言模型研究中的潜力,并通过模型收敛和数据适应来优化比例关系。
Apr, 2024
该研究调查了小语言模型在学习、保留和消除通常不存在于互联网上的噪声方面的能力,并评估了四个小语言模型的表现在不同训练水平下,发现 Olmo 在任务上表现始终良好,即使它是参数最少的模型。
Jul, 2024
本研究探讨了两种技术,以在低资源设置中训练单语言 TLM,结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。
Dec, 2022
这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡,旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法,从而减少所需的唯一参数总数。这种方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具,为 AI 语言建模的可持续和可访问的未来做出了贡献。
Sep, 2023
通过引入准确而高效的开源 0.5 亿参数的小语言模型 MobiLlama,本文探讨了在资源受限设备上设计准确但高效的小语言模型的挑战,并关注性能提升和资源需求降低,以满足隐私、安全和可持续性部署的需求。
Feb, 2024