- 数据增强综述
数据增强是一系列通过操作现有数据样本生成高质量人工数据的技术,利用数据增强技术可以显著提高人工智能模型在涉及稀缺或不平衡数据集的任务中的适用性,从而大大提高模型的泛化能力。本文提出了一个更具启发性的分类法,该分类法涵盖了不同常见数据形式的数 - 动态特征学习与匹配用于类增量学习
在这篇论文中,我们从三个角度提出了动态特征学习和匹配(DFLM)模型,分别是引入类别权重信息和非平稳函数来调整训练过程中对内存的关注,利用 von Mises-Fisher(vMF)分类器有效建模动态特征分布并隐式学习其判别性质,以及通过最 - IJCAI跨领域特征增强的域泛化
领域泛化通过提高模型的鲁棒性来开发具有分布偏移上的稳定性的模型。现有方法在跨域数据上学习不变性以增强模型的稳健性,数据增强被广泛用于学习不变的预测模型,其中大多数方法在输入空间进行增强。然而,输入空间的增强的多样性有限,而特征空间的增强更加 - MuMath-Code:结合多角度数据增强的数学推理工具使用大型语言模型
我们提出了一种结合外部工具和数据增强的方法,并采用两阶段的训练策略,以实现数学推理能力的增强。经过大量实验证明,我们的方法在数学推理任务上取得了新的最佳性能。
- CoViews:利用合作视图进行自适应增强对比学习
本文提出了一种学习高效自适应数据增强策略的对比学习框架,通过在训练过程中持续生成新的数据增强策略,无需任何监督,有效生成高质量的正负对,进而提升对比学习性能。实验证明,使用视图相关的增强策略训练优于使用所有视图共享的独立策略,在多个数据集和 - ADLDA:减少数据增强中数据分布转移的方法
本研究介绍了一种新的数据增强技术 ADLDA,旨在减轻计算机视觉任务中数据分布转变对数据增强过程造成的负面影响。ADLDA 将增强数据划分为不同子域,并结合领域适应技术,通过优化模型特征空间中的数据表示来提高模型性能。实验结果表明,ADLD - 基于功能磁共振成像的脑网络分析增强与计算工具箱
我们开发了一个称为 ACTION 的开源工具箱,提供了全面的功能来简化 fMRI 分析,该工具箱支持自动化 fMRI 数据增强、构建脑网络以及使用传统和深度学习模型进行分析,并且可以通过脚本设计和测试自定义算法。
- 数据增强最后一层训练方法的理论保证
通过线性最后一层重新训练和数据增强,我们针对每个子人群将潜在表示(输入到最后一层的数据)的分布建模为高斯分布,以实现在训练数据的许多不同子人群之间确保公平预测,并达到最优的最差组准确性。我们对合成数据和大型公开数据集进行了评估和验证。
- AugmenTory: 一个快速灵活的多边形增强库
数据增强是解决有限数据集挑战的关键技术之一,本文介绍了新开发的 AugmenTory 库,该库相较于现有方法在时间和空间上具备较低的计算需求,并且包括后处理阈值特性。
- 通过数据增强和摊销推理实现可扩展的垂直联邦学习
该研究提出了第一个用于垂直联合学习(VFL)中贝叶斯模型拟合的全面框架,通过数据增强技术将 VFL 问题转化为与现有贝叶斯联合学习算法兼容的形式,并开创了在垂直分区数据场景中进行隐私保护、去中心化贝叶斯推断的新研究方向与应用领域。
- 运用人工智能对 T2 磁共振成像中的腰椎肿瘤进行分割和定位
通过引入一种新的数据增强技术,本研究旨在自动化脊柱肿瘤的分割和定位,利用医学影像中专家绘制的预定义掩模,结合模糊 c 均值聚类和随机森林算法的融合,实现了成功的脊柱肿瘤分割和分类,同时使用 3D 椎体分割和标注技术精确定位了腰椎肿瘤的确切位 - 倾斜你的头:激活分类器的隐藏空间不变性
通过反转变换树进行推理的逆变换搜索算法(ITS)能够使深度神经网络具备对空间变换输入的零样本伪不变性,并在所有零样本测试场景上优于基准模型。
- RepAugment:面向输入的表示层数据增强用于呼吸音分类
探索预训练语音模型在呼吸音分类中的有效性,并提出了能够处理预训练语音波形的输入不可知表示级别增广技术。实验结果表明,该方法优于 SpecAugment,在少数疾病类别的准确性上实现了显著改善,最高达到 7.14%。
- 只需一半:通过使用部分内容提升数据增强
提出了一种名为 YONA 的新型数据增强方法,通过分割图像并将其中一半替换成噪音,对另一半应用数据增强技术,减少原始图像中的冗余信息,鼓励神经网络从不完整的视图中识别对象,显著提高神经网络的鲁棒性,此方法无需参数,应用简单,增强了现有数据增 - IntraMix:精确标签和邻居的类内混合生成
IntraMix 是一种针对图神经网络(GNNs)的通用框架,通过在同一类别的低质量标记数据之间应用 Mixup 生成高质量标记数据的方法,同时通过与同一类别高置信度数据连接生成的数据来建立邻居,从而解决了 GNNs 面临的两个挑战,挑战了 - 长期预测的数据增强策略搜索
我们介绍了一种名为 TSAA 的时间序列自动增强方法,用于应对长期预测中的过拟合挑战,并在挑战性的一元和多元预测基准问题上表现出卓越的性能,建议将其整合到预测流程中。
- 知识蒸馏为何有效?重新思考其注意力和忠实度机制
知识蒸馏是一种知识传输过程,但是模仿教师并不能始终提高学生的泛化性能,研究表明通过增加数据增强可以降低教师模型的关注度之间的交集从而降低学生过拟合和减少知识蒸馏的保真度,这种低保真现象可以用于优化学生模型性能。
- 时间序列数据增强的不平衡学习问题
这篇研究提出了一种生成单变量时间序列合成样本的新方法,通过使用过采样技术创建合成时间序列观测来改善预测模型的准确性,并在实验中证明了该方法优于全局模型和本地模型,提供了更好的权衡。
- 数据增强的两面性:基于非对称蒸馏的开放集识别的双赢解决方案
通过实证调查,我们发现多样本增强对减少特征鉴别具有积极影响,从而减少了开放集识别的要求;为了解决特征通过模仿会造成混淆语义的问题,我们提出了一种不对称蒸馏框架,通过为教师模型提供额外的原始数据来增加教师模型的收益;此外,我们还采用了联合互信 - COLING模型化正字变化提升尼日利亚商业英语的 NLP 性能
试验展示了将来自其他语料库的真实文本与合成的正字法变异相结合以增强训练数据的益处,在情感分析方面效果提升了 2.1 分,英文翻译方面效果提升了 1.4 BLEU 分。