Jun, 2023
超越规模:多样性系数作为数据质量度量展示LLMs是在形式多样的数据上预训练的
Beyond Scale: the Diversity Coefficient as a Data Quality Metric
Demonstrates LLMs are Pre-trained on Formally Diverse Data
TL;DR研究发现使用Task2Vec diversity coefficient可以衡量预训练数据集的多样性,该多样性与潜在概念的数量成正比,且可用于构建有用的多样化预训练数据集。