May, 2024

360 智脑技术报告

TL;DR使用 3.4T 的标记数据进行预训练,通过数据清洗和组合策略,将 360Zhinao-7B 模型的上下文窗口扩展至 32K 和 360K,实现了与类似规模模型的竞争性表现。