- 通过独立性检验测试多元正态性
我们提出了一种基于 Kac-Bernstein 的特征的简单多元正态检验方法,可通过利用现有的数据样本和差异的统计独立性检验来进行;我们还进行了相应的实证研究,结果显示对于高维数据,所提出的方法可能比其他替代方法更有效。附带的代码仓库在 h - 贝叶斯加法回归树的共同数据学习
应用贝叶斯加法回归树 (BART) 模型,结合实证贝叶斯 (EB) 框架和外部协变量信息(Co-data),以解决医学预测中小样本和高维数据的问题,并证明该方法在不同类型的 Co-data 下具有较好的预测性能。
- 隐含流形高斯过程回归
高斯过程回归是一种用于提供准确的不确定性估计和处理小型或稀疏数据集的方法,然而在高维数据上存在困难,本文提出了一种能够在实际数据中直接推断隐含结构的高斯过程回归技术,并讨论了该模型收敛到假设流形上的 Matern 高斯过程的情况,该技术能够 - 单细胞基因组的因果机器学习
单细胞组学的高维数据与生物学系统的复杂性共同构成了因果关系的挑战,本研究旨在应用机器学习方法解决这一问题,讨论了单细胞基因组学中因果推断方法的应用、相关的假设、存在的问题以及未来的研究方向,并预测因果模型将成为未来实验设计的重要工具。
- DPGOMI:差分私有化数据发布与高斯优化模型反向
我们提出了一种新颖的差分隐私数据发布方法,称为具有高斯优化模型逆向的差分隐私数据发布 (DPGOMI),用于解决在深度学习时代中不允许共享敏感信息的数据保护问题。我们的方法涉及使用公共生成器将私有数据映射到潜在空间,然后使用具有更好收敛性能 - URLOST: 无监督学习表示,不需要稳定性和拓扑学
无监督表示学习在处理高维数据模态时受限于数据特异性的稳定性和拓扑性,而生物智能系统却没有这样的限制。我们引入了一个新的框架,从缺乏稳定性和拓扑性的高维数据中进行学习,通过可学习的自组织层、密度调整的谱聚类和掩码自编码器的结合,我们的模型在生 - 利用信息流形投影进行聚类探索
我们提出了一种新的方法,用于生成信息丰富的嵌入,该方法不仅消除了与不同类型先验知识相关的结构,还旨在揭示任何剩余的基本结构,通过采用两个目标的线性组合:首先是对先验信息相关结构进行折扣的对比主成分分析 (contrastive PCA),其 - CA-PCA:适用于曲率的流形维度估计
本研究提出了基于二次嵌入的局部 PCA(主成分分析)方法 CA-PCA,以校准底层流形的曲率,从而改进算法在高维数据分析中的估计效果。
- 应用 CLUB-PLS 解决图像遗传学中的维度问题
在本研究中,我们介绍了一种基于偏最小二乘(PLS)的框架,称为 Cluster-Bootstrap PLS(CLUB-PLS),它可与高维度的遗传和脑成像数据以及大规模样本一起工作,通过使用聚类自助法为两个领域的单个输入特征提供稳健的统计数 - 单指数模型中最佳子集选择的一致可扩展算法
高维数据的分析引起了对单指数模型和最佳子集选择的日益关注,本文提出了第一个在高维单指数模型中具有可扩展性的证明可规模化的算法来进行最佳子集选择,该算法使用广义信息准则来确定回归系数的支持大小,消除模型选择调优。
- 高维数据的深度修剪残差罚最小二乘回归模型
大数据时代中的数据挑战包括:维度常常大于样本大小,异常值或污染点通常隐藏且更难检测。这篇论文系统地检查了文献中的主要惩罚回归方法,并提出了一种基于剪枝残差最小平方和的鲁棒惩罚回归方法,实验证明在估计和预测准确性方面胜过其他竞争对手。
- 调整和计算基于采样的 t-SNE 嵌入的困惑度
在这篇论文中,我们提出了一种基于采样的嵌入方法,用于解决在分析高维数据时使用二维可视化技术会导致次优嵌入的问题。我们展示了如何根据采样率和预期的最终嵌入选择合适的超参数,并说明了这种方法如何加快计算速度并提高嵌入的质量。
- 大规模基于梯度的因子分析混合模型训练
通过随机梯度下降方法,本论文针对高维数据提出了一种高效的高维混合因子分析(MFA)模型训练方法,并利用 MFA 应用于图像数据集进行样本生成和异常检测。
- 通过随机定位改进扩散模型的线性收敛界限
扩散模型对于从高维数据分布中生成近似样本是一个强大的方法。我们提供了第一个以数据维度为线性(在对数因子之内)的收敛界限,只需假设数据分布具有有限的二阶矩。我们证明扩散模型仅需要最多 Δ 步骤,就能以 Kullback-Leibler 差异度 - 高维细胞数据的流艺术家
在这篇研究中,我们介绍了一种名为 FlowArtist 的神经网络,它能够同时学习点云数据的嵌入和点周围的速度场,从而更好地分离和可视化速度相关的结构。通过在嵌入过程中利用坐标和速度信息,FlowArtist 能够有效地嵌入和展示高维度的数 - 聚合类别激活图的可视化分析全局类特征的方法
使用 Class Activation Maps(CAMs)方法对深度学习模型进行全局解释,通过方块表示每个特征的分类影响,大小描述了不同样本间影响的变化,提供交互式直方图进行进一步分析筛选,从而在高维数据中检测重要特征并根据全局解释进行 - 核 t 分布随机邻域嵌入
本文介绍了 t-SNE 算法的核化版本,能够将高维数据映射到低维空间并在非欧几里德度量下保留数据点之间的成对距离,可以通过仅在高维空间或在两个空间中使用核技巧来实现,提供了数据点之间关系的新视角,改进了包括使用核方法的分类问题的性能和准确性 - 利用机器学习进行信息分解,识别复杂系统中的相关变化
通过信息熵,我们提出了一种实用的方法来解压数据中的重要变化,以研究复杂系统。
- ICML局部敏感量化快速私有核密度估计
研究了不同隐私保护机制,包括局部敏感量化的构造、带核的密度估计和增强隐私工具等,实现了快速,准确和隐私保护的数据操作。
- 高维数据流自适应伯恩斯坦变化检测器
本文提出了一种名为 ABCD 的方法,用于在高维数据流中检测变化,该方法可以确定变化发生的子空间和严重程度,并比其他最先进的方法表现更好。