高维情况下极小化风险分类器的高效学习

Jun, 2023

高维情况下极小化风险分类器的高效学习

Efficient Learning of Minimax Risk Classifiers in High Dimensions

Kartheek Bondugula, Santiago Mazuelas, Aritz Pérez

TL;DR本研究使用限制生成方法为高维数据提供可靠的分类算法，并选择有竞争力的特征。

Abstract

high-dimensional data is common in multiple areas, such as health care and genomics, where the number of features can be tens of thousands. In such scenarios, the large number of features often leads to inefficient learning. →

high-dimensional data constraint generation methods support vector machines minimax risk classifiers feature selection

发现论文，激发创造

正则化和非正则化经验风险最小化的高维分类：精确误差和最优损失

本文通过理论分析，在高维数据考虑时，通过经验风险最小化框架的分类性能，针对两类高斯混合问题，提出了精确的分类误差预测，并且提出了在岭正则化和非正则化的情况下，都采用简单的平方损失作为高维分类的最优选择。

May, 2019

稀疏深度神经网络的统计学习

基于经验风险最小化与 l_1 正则化的深度神经网络估计器，我们推导出其在回归和分类（包括多类别）中的过量风险的一般界限，并证明它在各种函数类的整个范围内几乎达到最小值（取对数因子）。

Nov, 2023

高维超统计特征分类

研究在高维情况下通过经验风险最小化学习具有通用质心的两个数据点云的特征，涵盖了大量的数据分布，包括高斯混合分布和幂律分布，并分析了通过正则化的作用，推导了估计器的泛化性能，并探究了分布尺度参数对可分离性转换的影响。

Apr, 2023

正规化与最优多类学习

这项研究的目的是在多类学习中表征正则化的作用，并使用一种最优学习算法来控制模型容量，该算法与结构风险最小化、最大熵原理和贝叶斯推理相结合。同时引入一种新的学习者，通过在无监督学习阶段学习正则化器，实现结构风险最小化的放松，以及推导学习问题的归纳错误率。最后，引入了对偶误差的泛化和不可知情况的哈明图最优学习算法，通过最大熵程序实现最优学习。

Sep, 2023

基于最大间隔线性分类器的不确定数据学习

本文提出一种最大间隔分类器 SVM-GSU，使用多维高斯分布描述每个训练样本，以处理数据输入中的不确定性，并使用随机梯度下降方法高效地解决凸优化问题。通过测试，证明该方法的有效性。

Apr, 2015

稀疏支持向量机的 Majorization-Minimization

通过平滑的稀疏促进正则化的平方铰链损失最小化，研究了支持向量机的训练，并应用了基于主要化最小化方法的快速训练方法，提高了特征选择的性能，并在定量指标（准确率、精确率、召回率和 F1 值）以及计算成本方面表现出良好的性能。

Aug, 2023

鲁棒在线分类：从估计到去噪

在存在噪音标签的情况下，我们研究了在线分类问题。通过一般的核来建模噪音机制，为任何特征 - 标签对指定了一个（已知）噪音标签分布集合。每个时间步骤，对手根据实际的特征 - 标签对从核指定的分布集合中选择一个未知分布，并根据所选分布生成噪音标签。学习者根据迄今为止观察到的实际特征和噪音标签进行预测，如果预测与真实情况不同，则遭受损失 1（否则为 0）。预测质量通过计算有限时间视野 T 上的极小化风险来量化。我们证明了对于广泛的自然噪音核、对手选择的特征和有限类别的标记函数，极小化风险可以上界独立于时间视野并以标记函数类别尺寸的对数形式增长。然后，我们通过随机顺序覆盖的概念将这些结果推广到无限类别和随机生成的特征。我们的结果通过对在线条件分布估计的新颖归约提供了直观理解，并且扩展并包含了 Ben-David 等人（2009）的研究结果，具有显著的广泛性。

Sep, 2023

大函数空间中的学习：基于隐私保护机制的支持向量机学习

研究了隐私保护学习中可用性或风险与统计查询处理机制提供的差分隐私级别之间的权衡，提出了针对有限维特征映射和潜在无限维特征映射的两种有效机制，并利用算法稳定性证明了差分隐私，并使用正则化经验风险最小化的光滑性证明了机制的效用。

Nov, 2009

多成本场景下支持向量机

我们提出了一种新颖的支持向量机模型，通过在问题表达中引入性能约束来考虑误分类成本。具体而言，我们的目标是寻求具有最大间隔的超平面，使得误分类率低于给定的阈值。通过解决一个具有线性约束和整数变量的二次凸问题来获得最大间隔超平面。我们的实验结果表明，我们的模型可以使用户在一个类别上对误分类率进行控制，并且运行时间可行。

Dec, 2023

稀疏主成分分析在高维带噪数据下的极小极大界

本文研究了基于独立的高斯观测量对高维种群协方差矩阵的主导特征向量的估计问题，建立了 $l_2$ 损失下估计量最小风险的极小界，并提出了一种新的二阶段坐标选择方案的特征向量估计方法。

Mar, 2012