Jun, 2023

超越规模:多样性系数作为数据质量度量展示LLMs是在形式多样的数据上预训练的

TL;DR研究发现使用Task2Vec diversity coefficient可以衡量预训练数据集的多样性,该多样性与潜在概念的数量成正比,且可用于构建有用的多样化预训练数据集。