Jul, 2024

Falcon2-11B技术报告

TL;DR本研究针对训练超五万亿个标记的基础模型Falcon2-11B及其多模态对应模型Falcon2-11B-vlm,提出了多阶段训练的方法,并详细分析了中途加倍批量大小的影响及学习率对训练损失波动的影响。研究结果表明,该基础模型在多项任务上展现出优秀的泛化能力,适合下游微调使用,且相较于同类开源模型,视觉语言模型在多个基准测试中取得了更高的平均分。