Apr, 2024

TextGram:迈向更好的领域自适应预训练

TL;DR衡量和减少大型语言模型训练过程中产生的碳排放量对于绿色人工智能至关重要。我们提出了一种领域自适应数据选择方法 - TextGram,能够有效地从大规模语料库中选择关键数据,并展示了该策略在文本分类任务中相对于其他选择方法的优势。