Mar, 2024

技术报告:更好混合的竞争解决方案

TL;DR在大规模模型时代,选择和优化海量复杂数据集以提高大型语言模型的性能,在有限的计算资源约束下成为一项重大挑战。本文详细介绍了我们在 BetterMixture 挑战中的解决方案,着重于对大型语言模型进行微调数据混合。我们的方法在数据去重、低级和高级质量过滤以及多样性选择方面表现出色,在处理和优化大型语言模型的数据方面,基于 Data-Juicer 的扩展工具 Ke-Data-Juicer 使其具备了强大的能力。