提高泛化性能的数据混淆方法
本文主要研究基于深度神经网络的方法在训练数据与测试数据分布不一致时的性能问题,并通过学习训练样本的权重以消除特征之间的依赖关系,从而提高深度模型的性能。通过在多个分布泛化基准测试上的实验,与同类研究相比,我们的方法取得了很好的效果。
Apr, 2021
研究探讨了机器学习中的问题,特别是当模型在不同于训练数据的数据上进行测试时,模型很容易出现失败的现象,主要依靠发现数据的因果结构、找到可靠的特征并进行推广算法等方面展开探讨。
Mar, 2021
我们通过比较梯度下降(GD)和锐度感知最小化(SAM)的归纳偏差,证明了 SAM 在早期阶段更均匀地学习易于和困难的特征,因此我们提出了一种基于网络输出的示例聚类算法并上采样那些没有易于特征的示例,从而改善了原始数据分布上(S)GD 的泛化性能。同时,我们证明该方法与 SAM 和现有的数据增强策略相结合,在 CIFAR10、STL10、CINIC10、Tiny-ImageNet 上训练 ResNet18,在 CIFAR100 上训练 ResNet34,以及在 CIFAR10 上训练 VGG19 和 DenseNet121 中,取得了目前最佳的性能。
Apr, 2024
提出了一个基于表示学习和样本重加权的误差界,针对因果推断和无监督域自适应问题,在设计转换下减少泛化误差的算法框架,与以往方法相比具有更好的效果并具有渐近一致性。
Feb, 2018
本文提出了一种基于稀疏机制变化假设的在线学习算法,以实现模型的公平性,并引入长期公平约束的惩罚来评估生成的模型参数序列。在真实世界数据集上的实证评估证明了该方法在模型准确性和公平性方面的先进性。
May, 2023
从信息理论的角度,本文探讨了机器学习模型在实际应用中遭遇的数据偏移问题,比较了近期领域泛化与公正分类研究中一些最有前途的目标。根据我们的理论分析和实证评估,我们得出结论,模型选择过程需要根据观察到的数据、纠正因素和数据生成过程的结构进行认真考虑的指导。
Jun, 2021