基于深度截断区域的概率分布伪度量
本研究提出了一种新的概念 —— 极端深度(ED)用于函数数据,讨论了其性质,并将其性能与现有概念进行了比较。该提议的概念基于极端异常度量,具有其他概念不具备的一些理想性质,特别适合于获得函数数据和函数空间的中心区域,在构建集中区域、函数箱线图、异常值检测和回归问题中有着广泛的应用。
Oct, 2015
文章采用持久同调方法总结距离函数下水平集的拓扑特征,提出了抗噪声和异常值的距离测度方法 DTM 和核函数距离,并对 DTM 进行了浓度界定和参数选择。
Dec, 2014
图基深度(或半空间深度)是多变量数据的广泛使用的中心度量。然而,精确计算图基深度已知在高维度中是一个难题。作为补救措施,已提出了图基深度的随机近似。在本文中,我们研究了这种随机算法何时能够很好地近似图基深度。我们研究了从对数凹面各向同性分布中抽样的情况。我们证明,如果要求算法在维度上以多项式时间运行,则随机算法正确近似了最大深度 1/2 和接近零的深度。另一方面,对于任何中间深度的点,任何良好的近似都需要指数复杂度。
Sep, 2023
本文研究基于空间深度和分位数的非参数回归方法,应用于响应变量和协变量都是函数的场景,以分析功能响应的不同部分受函数协变量影响的程度,探测功能回归中的异方差性,并通过两组数据集分析了人均 GDP 对 125 个国家的储蓄率的影响以及人均可支配收入对美国部分州香烟销售的影响。
Jul, 2016
本文介绍了一个基于秩重的统计深度的延伸 ——Affine-Invariant IRW 深度(AI-IRW),并探讨了它的精度和应用价值,尤其在异常检测方面。我们使用样本版本的 AI-IRW 深度,研究并证明了 AI-IRW 深度统计对应物的集中性结果。
Jun, 2021
基于 Transformer 的文本嵌入的流行性呼吁更好的统计工具来衡量这些嵌入的分布。本文介绍了一种用于测量 transformer-based 文本嵌入分布的统计深度方法 TTE depth,并在自然语言处理流程中引入了该深度的实际应用,包括建模和分布推断。研究使用 TTE depth 对上下文学习提示选择任务进行了实验,展示了该方法相对于统计基准方法在六个文本分类任务上可靠提升性能的结果。最后,研究使用 TTE depth 及其相关的秩和检验特征了合成和人工生成语料库的分布,显示出五种最近的合成数据增强过程导致与相关的人工生成文本发生可测量的分布偏移。
Oct, 2023
该论文提出了一种新的相对深度估计方法,通过对深度分布进行概率分布的估计来提高估计的准确性,并提出了 Distributional Loss 来训练模型,可以输出标准差的置信度估计,该方法在度量深度估计上有较好的表现。
Oct, 2020
使用 Riemannian 几何工具研究了概率生成降维模型的几何结构,以高斯过程为基础,定义了一种度量分布,利用度量在潜变量空间中进行插值并测量距离,从而更恰当地生成新数据。
Nov, 2014