Jun, 2024

文本嫁接:用于文本分类中少数类的近分布弱监督

TL;DR综合了弱监督文本分类、伪标签、LLM以及少数类数据合成的优势,提出了一种名为文本嫁接的新框架,旨在获得少数类的干净且接近分布的弱监督,通过使用基于LLM的logits从原始语料库中挖掘掩码模板,并通过先进的LLM填充模板来合成接近分布的文本,从而显著改进了直接挖掘或合成少数类数据的效果。同时通过分析和案例研究来理解文本嫁接的特性。