提高泛化性能的数据混淆方法

Feb, 2020

Unshuffling Data for Improved Generalization

Damien Teney, Ehsan Abbasnejad, Anton van den Hengel

TL;DR该研究提出了一个新的训练方法，通过将数据分成非独立同分布的子集，可以有效地改善机器学习中的泛化问题，尤其在视觉问答任务中表现良好。

Abstract

generalization beyond the training distribution is a core challenge in machine learning. The common practice of mixing and shuffling examples when training →

machine learning neural networks generalization training procedure visual question answering

发现论文，激发创造

深度稳健学习 - 针对外部分布泛化

本文主要研究基于深度神经网络的方法在训练数据与测试数据分布不一致时的性能问题，并通过学习训练样本的权重以消除特征之间的依赖关系，从而提高深度模型的性能。通过在多个分布泛化基准测试上的实验，与同类研究相比，我们的方法取得了很好的效果。

Apr, 2021

机器学习中的越界泛化

研究探讨了机器学习中的问题，特别是当模型在不同于训练数据的数据上进行测试时，模型很容易出现失败的现象，主要依靠发现数据的因果结构、找到可靠的特征并进行推广算法等方面展开探讨。

Mar, 2021

充分利用数据：改变训练数据分布以提高内分布泛化性能

我们通过比较梯度下降（GD）和锐度感知最小化（SAM）的归纳偏差，证明了 SAM 在早期阶段更均匀地学习易于和困难的特征，因此我们提出了一种基于网络输出的示例聚类算法并上采样那些没有易于特征的示例，从而改善了原始数据分布上（S）GD 的泛化性能。同时，我们证明该方法与 SAM 和现有的数据增强策略相结合，在 CIFAR10、STL10、CINIC10、Tiny-ImageNet 上训练 ResNet18，在 CIFAR100 上训练 ResNet34，以及在 CIFAR10 上训练 VGG19 和 DenseNet121 中，取得了目前最佳的性能。

Apr, 2024

学习加权表示以实现跨设计通用化

提出了一个基于表示学习和样本重加权的误差界，针对因果推断和无监督域自适应问题，在设计转换下减少泛化误差的算法框架，与以往方法相比具有更好的效果并具有渐近一致性。

Feb, 2018

面向变化环境的公正可分离在线学习

本文提出了一种基于稀疏机制变化假设的在线学习算法，以实现模型的公平性，并引入长期公平约束的惩罚来评估生成的模型参数序列。在真实世界数据集上的实证评估证明了该方法在模型准确性和公平性方面的先进性。

May, 2023

一种信息理论方法应对分布转换

从信息理论的角度，本文探讨了机器学习模型在实际应用中遭遇的数据偏移问题，比较了近期领域泛化与公正分类研究中一些最有前途的目标。根据我们的理论分析和实证评估，我们得出结论，模型选择过程需要根据观察到的数据、纠正因素和数据生成过程的结构进行认真考虑的指导。

Jun, 2021

ZIN: 如何在不进行环境分区的情况下学习不变性？

本研究提出了一种新框架可以同时学习环境分区和不变的表示，并在合成和真实数据集上进行了实验证明其改进的性能。