Open-Sampling：探索越界数据以重新平衡长尾数据集

ICMLJun, 2022

Open-Sampling：探索越界数据以重新平衡长尾数据集

Open-Sampling: Exploring Out-of-Distribution data for Re-balancing Long-tailed datasets

Hongxin Wei, Lue Tao, Renchunzi Xie, Lei Feng, Bo An

TL;DR该论文提出了一种基于开集样本和贝叶斯理论的数据重平衡方法，命名为 Open-sampling，它可以提高神经网络的性能和学习可分离的表示，并且在实验中优于现有的数据重平衡方法和最先进的方法。

Abstract

deep neural networks usually perform poorly when the training dataset suffers from extreme class imbalance. Recent studies found that directly training with →

deep neural networks class imbalance out-of-distribution data open-sampling data re-balancing

发现论文，激发创造

通过温和的混合增强对开放式输入的鲁棒性

本文提出了一种新的正则化方法，可应用于现有的卷积神经网络架构中，以提高开放集鲁棒性，实现了最先进的开放集分类基线结果，并轻松扩展到大规模开放集分类问题。

Sep, 2020

OpenMix：探索异常样本进行误分类检测

本研究提出了一种可靠的置信度估计方法以检测深度神经网络分类器的误分类，该方法通过利用异常样本、使用在非目标类中的无标签样本以协助检测误分类错误，并将开放世界知识结合到模型中，学习拒绝通过异常转换生成的不确定的伪样本，从而在各种场景下显著提高置信度可靠性。

Mar, 2023

平衡还是不平衡：一种简单而有效的长尾分布学习方法

本文提出了一个简单而有效的辅助学习方法，通过对神经网络进行分类器和特征提取器的拆分，并针对每个部分采用不同的训练策略，如采用类平衡采样方案来提高对尾部类别的重视，并通过自监督学习进一步提高性能，从而解决了类别不平衡问题。

Dec, 2019

开放式标签噪声可以提高对内在标签噪声的稳健性

本文在弱监督学习中提出了使用 Open-set 动态噪声标签的正则化方法 ODNL，使深度神经网络拥有更高的容错能力，并且能够在标签噪声下取得更好的 Out-of-Distribution 检测表现。

Jun, 2021

一种简单的统一框架用于检测样本的离群点和对抗攻击

本文提出了一种简单而有效的方法，可用于检测任何异常样本，适用于任何预训练的 softmax 神经分类器，在高鲁棒性方面表现优越，同时在检测离群样本和对抗样本方面都取得了最先进的性能，在分类增量学习中有着更广泛的应用。

Jul, 2018

使用软布朗偏移取样和自编码器进行超范围检测和生成

本文提出了一种新的方法，通过自动编码器和软布朗运动偏移方法，基于给定的分布数据集生成足够接近真实数据的数据集，并用于改善深度神经网络的过度自信和提高其性能。该方法可以用于时间序列和 MNIST 数据集等数据的实验，并成功改善了这些数据的缺陷以及自动驾驶轨迹预测算法的效果验证。

May, 2021

在开放集识别评估中考虑类别不平衡

近年来，基于深度神经网络的系统不仅在人气上迅速增长，而且受到用户的信任。然而，由于这种系统的封闭世界假设，它们无法识别未知类别的样本，并且经常以高置信度引入错误标签。本文研究了开放集合识别方法的评估，着重关注类别不平衡对已知和未知样本的影响。在问题分析的基础上，我们提出了一套评估该领域方法的准则。

Feb, 2024

关于解决离分布检测评估方案中的随机性的问题

本研究针对 Deep Neural Networks 对于训练集以外数据的表现会出现不可预测情况，提出 out-of-distribution detection 机制，并通过 Monte Carlo 方法推测性能，指出当前的 evaluation protocols 可能无法可靠估计 OOD 方法的预期表现。

Mar, 2022

异常、新颖性、开放集和分布外检测的统一调查：解决方案及未来挑战

本文综述了目前在机器学习中所涉及的异常检测、开放集识别、新颖性检测和习一类学习等不同领域中，如何识别和检测来自于训练集分布之外的样本，从而提出了跨领域的研究方向，这对提高模型的鲁棒性具有重要意义。

Oct, 2021

基于有效样本数的类别平衡损失

研究长尾数据在机器学习任务中的问题，并提出了使用 “有效样本数” 改进重新权重计算的类平衡损失方法来提高对长尾数据集的训练效果。在人工合成的长尾 CIFAR 数据集和大规模数据集 ImageNet 和 iNaturalist 上进行了全面的实验，并证明该方法能够显著提高长尾数据集上的网络表现。

Jan, 2019