52B到1T：通过远程FLM系列学到的经验教训

Jul, 2024

52B到1T：通过远程FLM系列学到的经验教训

52B to 1T: Lessons Learned via Tele-FLM Series

Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang...

TL;DR大语言模型（LLMs）代表了人工通用智能的重大进展。本技术报告基于我们之前的Tele-FLM（也称为FLM-2）工作，探讨了两个主要方面：首先，我们讨论了在Tele-FLM-52B上的监督微调（SFT）的观察结果，支持“少即是多”方法用于SFT数据构建；其次，我们展示了从520亿到1020亿，以及到1万亿参数进行模型逐步扩展的最佳实践的实验和分析。我们将开源一个1T模型检查点，即Tele-FLM-1T，以推动进一步的培训和研究。

Abstract

large language models (llms) represent a significant stride toward artificial general intelligence. As scaling laws underscore the potenti

发现论文，激发创造

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

FLM-101B：一种开放的LLM及以10万美元预算训练它的方法

通过生长策略显著降低大语言模型的训练成本，并采用系统化评估范式，对大语言模型进行智商评估，以解决高计算成本和公正客观评估的挑战。

Sep, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的LLM系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强LLMs的技术、为LLM训练、微调和评估准备的常用数据集以及常用的LLM评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

大型语言模型在电信领域的语言智能

在自然语言处理领域中，本研究通过对四个知名的大型语言模型（Llama-2，Falcon，Mistral和Zephyr）进行全面的零样本评估，与最先进的微调模型进行性能比较，评估了大型语言模型在电信领域内的知识和理解能力，并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平，突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。

Feb, 2024

ChatGPT备选方案：大型语言模型调查

通过对多个LLM模型的研究，本文不仅提供了全面的概述，还明确了现有挑战，并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点，为进一步的探索、增强和创新提供了启示。

Mar, 2024

Tele-FLM 技术报告

大语言模型的扩展和效率提升方法的开放资源，以及展示优于其他模型的跨语言语言建模能力和核心设计。

Apr, 2024

GEB-1.3B：开放轻量级大型语言模型

最近发展的大型语言模型（LLMs）（如ChatGPT、Claude和Llama）展示了惊人的能力，甚至在多项任务中超越了人类水平。然而，这些模型对资源的需求在训练和推断方面都需要大量的计算能力，限制了它们应用于高性能服务器。鉴于在CPU上高效运行LLMs的需求日益增长，我们介绍了GEB-1.3B，一个在中文和英文语言中训练了5500亿标记的轻量级LLM。我们采用了一些新的训练技术，包括ROPE、Group-Query-Attention和FlashAttention-2，以加速训练同时保持模型的性能。此外，我们使用了1000万条指示数据样本对模型进行了微调以提高对齐度。GEB-1.3B在MMLU、C-Eval和CMMLU等常规基准测试中表现出色，优于MindLLM-1.3B和TinyLLaMA-1.1B等对比模型。值得注意的是，GEB-1.3B的FP32版本在CPU上具有可嘉的推断时间，正在进行先进的量化技术来进一步提高速度。GEB-1.3B作为一个开源模型的发布对于轻量级LLMs的发展具有重要意义，有望促进该领域的进一步研究和创新。

Jun, 2024

从基础到突破的最终指南：大型语言模型微调的全面技术、研究、最佳实践、应用研究挑战与机遇综述

本报告探讨了大型语言模型（LLMs）的微调，结合理论见解与实践应用，填补了传统自然语言处理（NLP）模型到AI关键角色之间的研究空白。报告引入了一个结构化的七阶段微调流程，并强调管理不平衡数据集和优化技术。显著发现是采用高效参数方法能够在计算效率和性能之间取得良好平衡，报告为研究者和从业者提供了实用的见解。

Aug, 2024

电信领域专业大语言模型系列

本研究针对大语言模型在电信领域应用不足的问题，通过创建Tele-Data和Tele-Eval数据集，填补了电信领域专门化的空白。研究发现，专门针对电信领域训练的Tele-LLMs在Tele-Eval上优于通用模型，提升了技术术语和数学表达的处理能力，为电信行业的进一步发展提供了潜在的影响力。

Sep, 2024