Feb, 2023

如何为文本数据增广选择 “好” 的样本

TL;DR本文提出了一种基于数据增强的自训练样本选择框架,使用熵和模型预测作为选择器,结合单词重叠和语义相似性来筛选高质量的样本。实验结果表明该框架是有效和简单的。