差分隐私拓扑数据分析
本文提出一种基于 persistence diagrams 的核方法,用于发展统计学框架,该方法具有稳定性和快速逼近技术,并在蛋白质和氧化物玻璃的实际数据中证明了其比其他相关方法更具优势。
Jan, 2016
本文提出了一种基于 persistent diagram、lower-star filtration 和 Betti 函数的方法,可以高效地从时变图数据中提取形状信息,并在模拟研究和实际数据应用中表现出优越的性能,尤其是对于变点检测和加密货币网络异常价格预测。
May, 2023
采用拓扑数据分析方法,我们从动力系统时间序列的图形化表示中提取了有关其周期性和混沌特征的信息,并使用序数分区框架构建了两种图形。该方法提供了更准确的动态特性描述,并具有更强的噪声鲁棒性。
Apr, 2019
本文提出了一种新的基于黎曼几何的持久图远程度量方法,将持久图建模为在希尔伯特球上以平方根框架表示的 2D 概率密度函数,避免与点进行一一对应比较,优化了计算复杂度,并可运用差分几何进行持久图的统计学分析。
May, 2016
本文研究了拓扑数据分析方法在分类和聚类任务中的应用,特别是通过使用持续图可以总结有关可能复杂和高维数据集形状的重要信息。我们探索了量子计算机用于估计持续图之间距离的潜力,提出了用于 Wasserstein 距离和 $d^{c}_{p}$ 距离的变分量子算法。我们的实现是量子近似优化算法的加权版本,依赖于控制子句来编码优化问题的约束条件。
Feb, 2024
本文提出一种实现高精度(ε,δ)-LDP (可保持个人数据隐私)的机制,分别针对多维数值数据和分类属性进行收集,实现了对数据的安全保护和更高的准确性,实验证明其在数据统计和机器学习模型中具有很高的数据实用性。
Jun, 2019
本文提出了一种新的 scale-invariant 度量,即标准化瓶颈距离 d_N,并介绍了称为 metric decomposition 的框架,用于比较具有双射的相等基数的有限度量空间,研究了多种降维技术如何在保持拓扑结构方面表现良好。
Jun, 2023
本文研究了本地差分隐私模型下敏感统计信息的收集,提出了一种算法,其隐私成本与用户值的更改数量的对数成正比。通过匿名化用户报告,基于用户报告的匿名性,我们还展示了当以中心式差分隐私模型来看待时,我们的 LDP 算法的隐私成本实际上会更低。通过新的隐私放大技术,我们证明了任何置换不变的算法,满足 ε 局部差分隐私的同时,也会满足(O(ε sqrt {log(1/δ)/n)},δ)中心差分隐私。作为实际的推论,我们的研究结果表明,几个基于 LDP 的工业部署的隐私成本会比它们宣传的 ε 值所表示的要低得多,至少是在报告经过匿名化的情况下。
Nov, 2018
使用代数拓扑的方法(TDA)来分析和侦测复杂的恶意软件模式,发现 TDA Mapper (结合 PCA) 在聚类和发现隐藏的恶意软件集群方面比 PCA 更好,持久图用于识别重叠的恶意软件集群。可以使用随机森林和决策树,以及 t-SNE 和持久图来应对噪声数据,提高恶意软件检测的性能和鲁棒性。
Nov, 2022
在这项工作中,我们介绍了一类称为扩展拓扑伪距离(ETD)的伪距离,它具有可调节的复杂性,并且可以在高复杂性极端近似切片和经典的 Wasserstein 距离,同时在较低复杂性极端上与 Persistence Statistics 相似,在持续矢量化和 Wasserstein 距离之间插值。我们通过理论比较展示了如何适应我们的新距离来达到持续矢量化和 Wasserstein 距离的中间水平。我们还在实验中验证了 ETD 相对于准确性的优势,并在计算复杂度方面优于 PS、Wasserstein 和 Sliced Wasserstein 距离。
Feb, 2024