非凸支持数据的快速核半空间深度

Dec, 2023

非凸支持数据的快速核半空间深度

Fast kernel half-space depth for data with non-convex supports

Arturo Castellanos, Pavlo Mozharovskyi, Florence d'Alché-Buc, Hicham Janati

TL;DR通过在再生核希尔伯特空间中扩展半空间深度来处理分布的多模态性，并证明了该深度的一致性和可靠的浓度界限，从而实现了快速计算半空间深度数倍数量级的性能。

Abstract

data depth is a statistical function that generalizes order and quantiles to the multivariate setting and beyond, with applications spanning over descriptive and visual statistics, anomaly detection, testing, etc

data depth halfspace depth multivariate setting reproducing kernel hilbert space homogeneity testing

发现论文，激发创造

半空间深度的精确计算

提出了一种基于理论框架的计算点相对于任意维数的数据云的半空间深度的方法，该方法可导出一整个算法类。这些算法中的深度是在数据云的适当投影相对于有限数量的深度值中最小的计算。对该类算法的三种变体进行了更详细的研究。模拟结果表明，所有的算法都能非常高效地处理不处于一般位置甚至包含平局的数据。

Nov, 2014

深度统计

论文介绍了数据深度及其在统计学中的应用，包括计算和鲁棒性的差异、中心区域及其在描述数据分布方面的作用，以及对概率分布的扩展和在功能空间中的应用。

Jul, 2012

关于 Tukey 深度随机近似的质量

图基深度（或半空间深度）是多变量数据的广泛使用的中心度量。然而，精确计算图基深度已知在高维度中是一个难题。作为补救措施，已提出了图基深度的随机近似。在本文中，我们研究了这种随机算法何时能够很好地近似图基深度。我们研究了从对数凹面各向同性分布中抽样的情况。我们证明，如果要求算法在维度上以多项式时间运行，则随机算法正确近似了最大深度 1/2 和接近零的深度。另一方面，对于任何中间深度的点，任何良好的近似都需要指数复杂度。

Sep, 2023

基于深度截断区域的概率分布伪度量

本文提出了一种新的假距度量方法，该方法使用数据深度来扩展多元分位数的概念，从而度量欧几里得空间上的连续概率分布之间的差异，并通过有限样本破坏点研究了其稳健性。

Mar, 2021

基于核随机投影的离群点检测深度

本文提出了一个扩展的随机投影深度（RPD）方法来应对多模态和非凸数据云。该方法在再生核希尔伯特空间中计算 RPD。通过核主成分分析，我们期望该方法能够应对上述多模态和非凸问题。实验结果表明，所提出的方法优于 RPD，并可与现有检测模型相媲美。

Jun, 2023

带有机器学习算法描述分析的偏序深度函数

通过深度函数的概念，提出一个分析部分顺序集的框架，并介绍了基于联合无冗余泛型（ufg）深度的机器学习算法比较方法。结果显示，与现有的基准测试方法相比，我们的方法具有显著差异，为分类器比较提供了新的视角。

Apr, 2023

函数数据的极值深度及其应用

本研究提出了一种新的概念 —— 极端深度（ED）用于函数数据，讨论了其性质，并将其性能与现有概念进行了比较。该提议的概念基于极端异常度量，具有其他概念不具备的一些理想性质，特别适合于获得函数数据和函数空间的中心区域，在构建集中区域、函数箱线图、异常值检测和回归问题中有着广泛的应用。

Oct, 2015

利用半空间在 $l_p$- 范数距离度量下改进浓度估计

通过理论分析、提出半空间方法，更加有效地测量数据集的浓缩程度，从而得到更紧密的原始鲁棒性下限，并证明这些更紧密的下限进一步排除了基于数据集浓缩的假说，该假说被认为是解释现有分类器使之易受到对抗攻击的可能原因。

Mar, 2021

深度网络与多重流形问题

研究神经网络中的多重流形问题，证明当网络深度相对于数据的几何和统计属性较大时，其宽度作为统计资源，使随机初始化网络的梯度集中，而其深度作为拟合资源，更易于分离类流形，基于神经切向核及其在训练超参数化神经网络方面的作用，我们为深度全连接网络的神经切向核提供了完全优化的集中速率。

Aug, 2020

基于内核视角的深度卷积模型近似和学习

本研究通过核方法的角度对卷积核网络进行了研究，发现其 RKHS 由补丁之间的交互项的加性模型组成，其范数通过汇聚层促进这些项之间的空间相似性，并提供了泛化界，以说明池化和补丁如何提高样本复杂度保证。

Feb, 2021