Jul, 2024

H2O-Danube3 技术报告

TL;DR我们介绍了H2O-Danube3系列的小型语言模型,由H2O-Danube3-4B(预训练数据为6T个tokens)和H2O-Danube3-500M(预训练数据为4T个tokens)组成。我们的模型在高质量的Web数据上进行了预训练,并经过了三个阶段的不同数据混合,在最后进行了有监督的调优。这些模型在学术、交流和微调基准测试中展现出高竞争力的指标。由于其紧凑的架构,H2O-Danube3可以在现代智能手机上高效运行,即使在移动设备上也能实现本地推理和快速处理能力。我们按照Apache 2.0许可协议公开提供所有模型,进一步为更广泛的受众普及了语言模型的经济实用性。