BClean:一个贝叶斯数据清洗系统
本文介绍了一种全自动检测和修复域值违规数据的方法,并使用统计提升算法自动选择最佳的错误检测和修复组合以提高模型准确率,实验结果显示,BoostClean 在多个数据集中表现优异,可以使预测准确率提高高达 9%。
Nov, 2017
本研究提出了一种基于贝叶斯网络的自然语言处理方法,可以预测和分析上下文,并可以应用于社区问答领域,通过与基线模型的比较,我们的方法在精度指标方面表现更好,同时讨论了罚项对贝叶斯网络结构的影响,以及有向无环图在分析语义关系方面的可视化表示。
Feb, 2023
BayesDB 是一种概率编程平台,通过 BQL,它使用一类多元概率模型回答查询以平均隐含的概率模型空间,实现在不损失数学严谨和推论质量的前提下,使统计推论广泛适用于非统计学家。
Dec, 2015
本文旨在提出解决复杂数据分析问题中的信心度测量的方法,包括判断两个节点之间的边缘是否成立、一个给定节点的马尔可夫毯子是否鲁棒以及变量排序等方面,并通过 Efron 的 Bootstrap 方法来实现对这些问题的计算高效求解。此外,作者提出使用这些信心度测量来从数据中产生更好的结构,以及检测潜在变量的存在。
Jan, 2013
本文提出了一种称为 CIBer 的新技术,该技术能够克服朴素贝叶斯方法带来的挑战并实现特征的最优分区,我们在不同的数据集上清楚地展示了我们技术的有效性,在比如随机森林和 XGBoost 等模型中,我们实现了更低的误差率和更高或相等的准确性。
Apr, 2023
本文提出了一种新的混合算法 MCME,解决了基于约束的方法中 CI 测试的不准确性和基于得分的方法中搜索空间增加和学习效率低下的问题,并在方向判别阶段中的得分函数方面做出创新。大量实验证明 MCME 的性能优于或类似于一些现有算法。
Dec, 2022
引入了一种贝叶斯机器科学家,它使用对模型的后验分布的明确逼近来确定模型的合理性,并通过从数学表达式的大量经验语料库中进行学习来确定模型的先验期望。该方法可以自动从数据中提取精确的模型,并且在合成数据和真实数据上提供比现有方法和其他非参数方法更准确的外样本预测。
Apr, 2020
提出了一种自动贝叶斯推理框架 AutoBayes,可以通过不同的图模型来建立分类器、编码器、解码器、估计器和对抗网络块之间的联系,进而优化机器学习流水线,学习到既可用于任务特征提取又不受无关变量干扰的数据表示。框架在多个公共数据集上进行了基准测试,并证明了集成学习在不同的图模型下可以显著提高性能。
Jul, 2020