Sep, 2023

增强:基于注意力的 Mixup 用于 Transformer 的性能提升和标签平滑

TL;DR混合是一种有效的数据增强方法,通过聚合不同原始样本的线性组合来生成新的增强样本,本文提出了一种名为 AMPLIFY 的新的混合方法,使用 Transformer 自身的注意机制来降低原始样本中噪音和异常值对预测结果的影响,避免了传统混合方法中资源消耗过高的问题,在 7 个基准数据集上提升了文本分类任务的性能,为基于注意机制的预训练模型如 BERT、ALBERT、RoBERTa 和 GPT 等的性能改进提供了新思路和新方法。