GEB-1.3B：开放轻量级大型语言模型

Jun, 2024

GEB-1.3B：开放轻量级大型语言模型

GEB-1.3B: Open Lightweight Large Language Model

Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu

TL;DR最近发展的大型语言模型（LLMs）（如 ChatGPT、Claude 和 Llama）展示了惊人的能力，甚至在多项任务中超越了人类水平。然而，这些模型对资源的需求在训练和推断方面都需要大量的计算能力，限制了它们应用于高性能服务器。鉴于在 CPU 上高效运行 LLMs 的需求日益增长，我们介绍了 GEB-1.3B，一个在中文和英文语言中训练了 5500 亿标记的轻量级 LLM。我们采用了一些新的训练技术，包括 ROPE、Group-Query-Attention 和 FlashAttention-2，以加速训练同时保持模型的性能。此外，我们使用了 1000 万条指示数据样本对模型进行了微调以提高对齐度。GEB-1.3B 在 MMLU、C-Eval 和 CMMLU 等常规基准测试中表现出色，优于 MindLLM-1.3B 和 TinyLLaMA-1.1B 等对比模型。值得注意的是，GEB-1.3B 的 FP32 版本在 CPU 上具有可嘉的推断时间，正在进行先进的量化技术来进一步提高速度。GEB-1.3B 作为一个开源模型的发布对于轻量级 LLMs 的发展具有重要意义，有望促进该领域的进一步研究和创新。

Abstract

Recently developed large language models (llms) such as ChatGPT, Claude, and Llama have demonstrated impressive abilities, and even surpass human-level performance in several tasks. Despite their success, the res

large language models llms cpu inference geb-1.3b lightweight llms

发现论文，激发创造

GLM-130B: 一个开放式双语预训练模型

GLM-130B 是一种双语预训练语言模型，拥有 1300 亿个参数。通过本文我们介绍了 GLM-130B 的训练过程、设计选择、训练策略、工程努力、以及它有别于其他模型的独特的可扩展性等特点。我们观察到该模型在学习效率和稳定性方面都有非常好的表现，并能在英文和中文语料库中显著地超越 ERNIE TITAN 3.0 和 GPT-3 175B 等知名模型，且有别于其他模型的独特的可扩展性，可以在相对较低的成本下进行使用。

Oct, 2022

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

JetMoE：以 0.1M 美元达到 Llama2 性能

JetMoE-8B 是一种高性价比、透明和学术友好的基于 Sparsely-gated Mixture-of-Experts (SMoE) 架构的大型语言模型，仅需要不足 10 万美元的培训成本，拥有 8B 个参数，使用公共数据集和训练代码，能在降低推理计算约 70% 的情况下实现令人瞩目的性能表现，为开放的基础模型的发展提供了透明而鼓励合作的方式。

Apr, 2024

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

InternLM2 技术报告

InternLM2 是一种开源的大型语言模型，通过创新的预训练和优化技术，在多个维度和 30 个基准测试中优于之前的模型，并在长文本建模和开放主观评估方面取得突出表现。该模型通过精心设计的预训练过程，使用了包括文本、代码和长文本数据在内的多种数据类型，并具备捕捉长期依赖、高效处理任务的能力。此外，通过释放不同训练阶段和模型大小的 InternLM2 模型，为社区提供了对模型演进的深入理解。

Mar, 2024

从零开始预训练轻量级大型语言模型 MindLLM: 评估与领域应用

MindLLM 是一系列双语轻量级大型语言模型，通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验，并介绍了适用于较小模型的创新指令调整框架，同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。

Oct, 2023

GenTranslate：大型语言模型是生成式跨语音和机器翻译器

利用大型语言模型的丰富语言知识和强大的推理能力，我们提出了一种新的生成式翻译范式 ——“GenTranslate”，可以从 N 个候选译文中生成更高质量的翻译结果，并且在各种语音和机器翻译基准测试中明显优于现有模型。

Feb, 2024

TinyGPT-V: 通过小型骨干实现高效的多模态大型语言模型

在先进的多模式学习时代，本文介绍了 TinyGPT-V 这一低计算资源需求的多模式大型语言模型，通过小型骨干网络实现了高效的语言 - 视觉交互，为设计成本效益高、高性能的多模式大型语言模型的进一步发展提供了基础。

Dec, 2023

大型语言模型不是你所需的全部

本文描述了解决 SemEval 2023 Task 2：MultiCoNER II（多语言复杂命名实体识别）问题所构建的体系结构和系统。我们评估了两种方法：传统的条件随机场模型和经过自定义头部微调的大型语言模型（LLM），并比较了这两种方法。我们探索的新想法有：1）衰减辅助损失（带剩余项）- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中；2）三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式；3）任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM，包括 GPT-3，并在最终模型中使用了多种 dropout 和其他超参数设置，该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值，并在测试数据上达到了 0.67/0.61。我们证明，虽然预训练的 LLM 本身相对传统模型带来了很大的改进，但通过上述额外特征 / 损失 / 模型工程技术的增强，我们还可以显著提高宏观 F1 分数。

Jan, 2024