森林密度估计
该研究提出了广义随机森林方法,用于基于随机森林进行非参数统计估计,可以用于拟合任何被识别为满足一组局部矩方程的解的感兴趣数量,提出了一种灵活且计算有效的算法以及新的非参数回归,条件平均偏差估计和异质性治疗效应估计方法,通过本研究可用 GRF 软件实现。
Oct, 2016
通过建立 full density 模型 f (yjx) 而非只有期望值 E (yjx),条件密度估计广义了回归。本文提出了双核条件密度估计器,并引入了基于双数树的快速算法,用最大似然准则进行带宽选择,从而在处理多变量数据集时取得 380 万倍的加速。
Jun, 2012
我们研究了学习无向高斯树和有向高斯多叉树的最优算法,考虑了分布学习和结构学习两个问题,通过推导出显式的有限样本保证并给出匹配的下界证明两种方法的最优性,同时进行了数值实验以比较各种算法的性能表现。
Feb, 2024
本研究提出了利用半监督学习结合基于密度比估计的贝叶斯优化方法,解决在全局解候选人方面监督分类器过于自信的问题。针对 unlabeled point sampling 和 fixed-size pool 场景,对我们的方法和几种基线方法进行了实验结果展示。
May, 2023
该论文提出了两种基于密度估计的聚类方法,包括了单链接算法和 $k$- 近邻图算法,并给出了算法的收敛性和一些最坏情况的样本复杂性。论文最后还研究了一种聚类树剪枝的方法,保证去除躁声簇并恢复主要簇的性质。
Jun, 2014
本文介绍了在大规模非参数回归设置中将蒙德里安森林扩展到使用新颖的分层高斯先验,从而获得基于原则的不确定性估计,同时保留决策森林的计算优势。通过使用说明性例子、现实世界中的大规模数据集和贝叶斯优化基准,证明了 Mondrian 森林优于近似 GPs 的大规模回归任务,并提供了比基于决策森林的方法更好的校准不确定性评估。
Jun, 2015
本文提出了使用无监督随机森林的新型密度估计和数据合成方法。通过交替的生成和区分,树逐渐学习到数据的结构属性。 与经典的基于树的替代方案不同,我们的方法提供平滑的(非)条件密度并允许完全合成数据生成。 在执行速度平均快大约两个数量级的同时,我们在各种表格数据基准测试上实现了与最先进的概率电路和深度学习模型可比或更好的性能。
May, 2022
我们提出了一种新颖的算法,可以同时进行输入数据的表示学习和层次预测器的学习,该算法通过优化多向节点划分的平衡和易分离性来实现目标函数,从而实现分类误差的上界和提高准确性,并将算法的变体应用于文本分类和语言建模中。
Oct, 2016
使用加入 l1-norm 惩罚项的最大似然问题的解决办法来估计高斯或二元分布参数,以得到稀疏的无向图模型,并利用块坐标下降和 Nesterov's 一阶法等算法将复杂度限制在可接受范围内。
Jul, 2007