May, 2024

大型语言模型中的跨语言迁移学习动态数据采样器

TL;DR提出ChatFlow模型,通过跨语言迁移实现了大规模中文语言模型的高性能训练,包括大型语料库的收集与资源的利用、对齐跨语言表示以促进知识转移、使用动态数据采样器渐进式地将模型从无监督预训练过渡到有监督微调,实验证明了该方法在加速模型收敛和取得优越性能方面的优势。