基于深度截断区域的概率分布伪度量

Mar, 2021

基于深度截断区域的概率分布伪度量

A Pseudo-Metric between Probability Distributions based on Depth-Trimmed Regions

Guillaume Staerman, Pavlo Mozharovskyi, Pierre Colombo, Stéphan Clémençon, Florence d'Alché-Buc

TL;DR本文提出了一种新的假距度量方法，该方法使用数据深度来扩展多元分位数的概念，从而度量欧几里得空间上的连续概率分布之间的差异，并通过有限样本破坏点研究了其稳健性。

Abstract

The design of a metric between probability distributions is a longstanding problem motivated by numerous applications in Machine Learning. Focusing on continuous →

metric probability distributions data depth multivariate quantiles robustness

发现论文，激发创造

深度统计

论文介绍了数据深度及其在统计学中的应用，包括计算和鲁棒性的差异、中心区域及其在描述数据分布方面的作用，以及对概率分布的扩展和在功能空间中的应用。

Jul, 2012

非凸支持数据的快速核半空间深度

通过在再生核希尔伯特空间中扩展半空间深度来处理分布的多模态性，并证明了该深度的一致性和可靠的浓度界限，从而实现了快速计算半空间深度数倍数量级的性能。

Dec, 2023

函数数据的极值深度及其应用

本研究提出了一种新的概念 —— 极端深度（ED）用于函数数据，讨论了其性质，并将其性能与现有概念进行了比较。该提议的概念基于极端异常度量，具有其他概念不具备的一些理想性质，特别适合于获得函数数据和函数空间的中心区域，在构建集中区域、函数箱线图、异常值检测和回归问题中有着广泛的应用。

Oct, 2015

稳健的拓扑推断：距离度量和核距离

文章采用持久同调方法总结距离函数下水平集的拓扑特征，提出了抗噪声和异常值的距离测度方法 DTM 和核函数距离，并对 DTM 进行了浓度界定和参数选择。

Dec, 2014

关于 Tukey 深度随机近似的质量

图基深度（或半空间深度）是多变量数据的广泛使用的中心度量。然而，精确计算图基深度已知在高维度中是一个难题。作为补救措施，已提出了图基深度的随机近似。在本文中，我们研究了这种随机算法何时能够很好地近似图基深度。我们研究了从对数凹面各向同性分布中抽样的情况。我们证明，如果要求算法在维度上以多项式时间运行，则随机算法正确近似了最大深度 1/2 和接近零的深度。另一方面，对于任何中间深度的点，任何良好的近似都需要指数复杂度。

Sep, 2023

函数数据的非参数深度和分位数回归

本文研究基于空间深度和分位数的非参数回归方法，应用于响应变量和协变量都是函数的场景，以分析功能响应的不同部分受函数协变量影响的程度，探测功能回归中的异方差性，并通过两组数据集分析了人均 GDP 对 125 个国家的储蓄率的影响以及人均可支配收入对美国部分州香烟销售的影响。

Jul, 2016

仿射不变秩重深度综合：定义、性质和有限样本分析

本文介绍了一个基于秩重的统计深度的延伸 ——Affine-Invariant IRW 深度（AI-IRW），并探讨了它的精度和应用价值，尤其在异常检测方面。我们使用样本版本的 AI-IRW 深度，研究并证明了 AI-IRW 深度统计对应物的集中性结果。

Jun, 2021

基于统计的深度学习算法对 Transformer 文本嵌入进行排名和表征

基于 Transformer 的文本嵌入的流行性呼吁更好的统计工具来衡量这些嵌入的分布。本文介绍了一种用于测量 transformer-based 文本嵌入分布的统计深度方法 TTE depth，并在自然语言处理流程中引入了该深度的实际应用，包括建模和分布推断。研究使用 TTE depth 对上下文学习提示选择任务进行了实验，展示了该方法相对于统计基准方法在六个文本分类任务上可靠提升性能的结果。最后，研究使用 TTE depth 及其相关的秩和检验特征了合成和人工生成语料库的分布，显示出五种最近的合成数据增强过程导致与相关的人工生成文本发生可测量的分布偏移。

Oct, 2023

一种带有不确定性的新分布排序损失函数：相对深度估计中的应用

该论文提出了一种新的相对深度估计方法，通过对深度分布进行概率分布的估计来提高估计的准确性，并提出了 Distributional Loss 来训练模型，可以输出标准差的置信度估计，该方法在度量深度估计上有较好的表现。

Oct, 2020

概率几何度量

使用 Riemannian 几何工具研究了概率生成降维模型的几何结构，以高斯过程为基础，定义了一种度量分布，利用度量在潜变量空间中进行插值并测量距离，从而更恰当地生成新数据。

Nov, 2014