H2O-Danube3 技术报告

Jul, 2024

H2O-Danube3 Technical Report

Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar...

TL;DR我们介绍了H2O-Danube3系列的小型语言模型，由H2O-Danube3-4B（预训练数据为6T个tokens）和H2O-Danube3-500M（预训练数据为4T个tokens）组成。我们的模型在高质量的Web数据上进行了预训练，并经过了三个阶段的不同数据混合，在最后进行了有监督的调优。这些模型在学术、交流和微调基准测试中展现出高竞争力的指标。由于其紧凑的架构，H2O-Danube3可以在现代智能手机上高效运行，即使在移动设备上也能实现本地推理和快速处理能力。我们按照Apache 2.0许可协议公开提供所有模型，进一步为更广泛的受众普及了语言模型的经济实用性。

Abstract

We present h2o-danube3, a series of small language models consisting of h2o-danube3-4B, trained on 6T tokens and →

发现论文，激发创造

h2oGPT：大规模语言模型的民主化

介绍了一种基于 h2oGPT 平台的开源语言模型，旨在创建开源的比闭源 GPT 更好的大型语言模型，这将促进 AI 的发展并使其更加可靠和透明。

Jun, 2023

Chat Vector：为语言模型赋予新的语言聊天能力的简易方法

使用聊天向量(chat vector)和计算上高效的方法，将对话模型(ChatGPT)与人类偏好对齐，展示了对非英语语言特别是中文的适应性及高效性。

Oct, 2023

H2O 开放生态系统用于最先进的大型语言模型

介绍了一个完整的开源生态系统，用于开发和测试大型语言模型，目标是促进开放式替代闭源方法，通过h2oGPT和H2O LLM Studio提供基于Apache 2.0许可的代码和模型，以便更好地发展和访问AI。

Oct, 2023

互联网上大规模语言模型的分布式推理和微调

本研究探讨了大型语言模型在成本高效的推理和微调方面的方法，并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议，用于自动分配设备以最大化系统总吞吐量，并展示了这些算法在 Petals 中的应用，该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。

Dec, 2023

H2O-Danube-1.8B 技术报告

H2O-Danube-1.8B is a 1.8B language model trained on 1T tokens, demonstrating competitive metrics and democratizing LLMs through open accessibility.

Jan, 2024

MobileLLM: 优化千亿级语言模型，以满足设备上的使用需求

通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制，我们提出了一种名为MobileLLM的强基线网络，它在先前的125M/350M最先进模型上分别获得2.7%/4.3%的准确度提升。此外，我们还提出了一种即时的分块权重共享方法，不增加模型大小且仅有微小的延迟开销。MobileLLM-LS模型进一步提升了0.7%/0.8%的准确度，相较于MobileLLM 125M/350M。此外，MobileLLM模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升，并在API调用任务中表现出接近LLaMA-v2 7B的正确性，突显了小型模型在常见设备使用情景中的能力。

Feb, 2024

多语言聊天数据集：Tagengo

我们提供了一个高质量的数据集，包含74种语言中的超过70k个提示-回应对，用于训练最先进的开源英语语言模型，以实现多语言对话。在6种语言的MT-Bench对话基准测试中，我们的多语言模型优于先前的开源语言模型。此外，我们发现在更多多语言数据上进行训练有助于比仅仅在特定语言的数据上进行训练（如日语），从而提高性能。这些结果表明，在大量高质量多语言数据的训练下，实现更易用的语言模型变得必要。

May, 2024

WildBench：基于真实用户的挑战性任务对LLMs进行基准测试

WildBench是一个自动评估框架，使用挑战性的真实用户查询来评估大型语言模型。它基于1,024个从超过一百万人机对话日志中精心选择的任务构建，并引入了两种具有可计算性的度量标准。通过使用任务特定的检查清单进行评估，并提供结构化解释来支持分数和比较，使得结果更可靠且易于解释。该框架中的度量标准在模型输出方面表现出与人工评分的很强相关性，具有较高的评估效率和成本效益。

Jun, 2024

GEB-1.3B：开放轻量级大型语言模型

最近发展的大型语言模型（LLMs）（如ChatGPT、Claude和Llama）展示了惊人的能力，甚至在多项任务中超越了人类水平。然而，这些模型对资源的需求在训练和推断方面都需要大量的计算能力，限制了它们应用于高性能服务器。鉴于在CPU上高效运行LLMs的需求日益增长，我们介绍了GEB-1.3B，一个在中文和英文语言中训练了5500亿标记的轻量级LLM。我们采用了一些新的训练技术，包括ROPE、Group-Query-Attention和FlashAttention-2，以加速训练同时保持模型的性能。此外，我们使用了1000万条指示数据样本对模型进行了微调以提高对齐度。GEB-1.3B在MMLU、C-Eval和CMMLU等常规基准测试中表现出色，优于MindLLM-1.3B和TinyLLaMA-1.1B等对比模型。值得注意的是，GEB-1.3B的FP32版本在CPU上具有可嘉的推断时间，正在进行先进的量化技术来进一步提高速度。GEB-1.3B作为一个开源模型的发布对于轻量级LLMs的发展具有重要意义，有望促进该领域的进一步研究和创新。

Jun, 2024

立陶宛语的开放Llama2模型

本研究提出了首个针对立陶宛语的开放Llama2大语言模型（LLMs），并配套提供了问答数据集和流行LLM基准的翻译。研究表明，高质量的预训练数据集对模型在语言理解任务上的高效表现至关重要。

Aug, 2024