BClean：一个贝叶斯数据清洗系统

Nov, 2023

BClean: A Bayesian Data Cleaning System

Jianbin Qin, Sifan Huang, Yaoshu Wang, Jing Zhu, Yifan Zhang...

TL;DR提出了一种名为 BClean 的贝叶斯清理系统，使用自动贝叶斯网络构建和用户交互，并通过贝叶斯推断将数据清理问题重新定义，展现出优于现有贝叶斯方法 2% 和其他数据清理方法 15% 的数据清理能力。

Abstract

There is a considerable body of work on data cleaning which employs various principles to rectify erroneous data and transform a dirty dataset into a cleaner one. One of prevalent approaches is probabilistic methods

data cleaning probabilistic methods bayesian network construction bayesian inference bclean

发现论文，激发创造

BoostClean: 机器学习自动错误检测与修复

本文介绍了一种全自动检测和修复域值违规数据的方法，并使用统计提升算法自动选择最佳的错误检测和修复组合以提高模型准确率，实验结果显示，BoostClean 在多个数据集中表现优异，可以使预测准确率提高高达 9%。

Nov, 2017

基于约束条件的因果推断的贝叶斯方法

本论文提出了一种结合贝叶斯方法和约束方法的算法，用于解决从有限数据集进行因果推断的准确性和稳健性问题。

Oct, 2012

编程社区问答中的命名实体预测贝叶斯网络

本研究提出了一种基于贝叶斯网络的自然语言处理方法，可以预测和分析上下文，并可以应用于社区问答领域，通过与基线模型的比较，我们的方法在精度指标方面表现更好，同时讨论了罚项对贝叶斯网络结构的影响，以及有向无环图在分析语义关系方面的可视化表示。

Feb, 2023

BayesDB: 一种概率编程系统，可用于查询数据的可能影响

BayesDB 是一种概率编程平台，通过 BQL，它使用一类多元概率模型回答查询以平均隐含的概率模型空间，实现在不损失数学严谨和推论质量的前提下，使统计推论广泛适用于非统计学家。

Dec, 2015

基于贝叶斯网络的数据分析：一种自助法的方法

本文旨在提出解决复杂数据分析问题中的信心度测量的方法，包括判断两个节点之间的边缘是否成立、一个给定节点的马尔可夫毯子是否鲁棒以及变量排序等方面，并通过 Efron 的 Bootstrap 方法来实现对这些问题的计算高效求解。此外，作者提出使用这些信心度测量来从数据中产生更好的结构，以及检测潜在变量的存在。

Jan, 2013

贝叶斯分类器特征的最优划分

本文提出了一种称为 CIBer 的新技术，该技术能够克服朴素贝叶斯方法带来的挑战并实现特征的最优分区，我们在不同的数据集上清楚地展示了我们技术的有效性，在比如随机森林和 XGBoost 等模型中，我们实现了更低的误差率和更高或相等的准确性。

Apr, 2023

学习贝叶斯网络的综合改进混合算法：多重复合记忆擦除

本文提出了一种新的混合算法 MCME，解决了基于约束的方法中 CI 测试的不准确性和基于得分的方法中搜索空间增加和学习效率低下的问题，并在方向判别阶段中的得分函数方面做出创新。大量实验证明 MCME 的性能优于或类似于一些现有算法。

Dec, 2022

贝叶斯网络学习教程

本文探讨了贝叶斯网络的构建方法，阐述了利用数据构建模型的统计方法，以及学习贝叶斯网络参数和结构的技术，最终通过一个实例来论证了贝叶斯网络在实际中的应用。

Feb, 2020

一种贝叶斯机器科学家用于帮助解决复杂科学问题的方法

引入了一种贝叶斯机器科学家，它使用对模型的后验分布的明确逼近来确定模型的合理性，并通过从数学表达式的大量经验语料库中进行学习来确定模型的先验期望。该方法可以自动从数据中提取精确的模型，并且在合成数据和真实数据上提供比现有方法和其他非参数方法更准确的外样本预测。

Apr, 2020

AutoBayes: 自动贝叶斯图探索用于鲁棒推断

提出了一种自动贝叶斯推理框架 AutoBayes，可以通过不同的图模型来建立分类器、编码器、解码器、估计器和对抗网络块之间的联系，进而优化机器学习流水线，学习到既可用于任务特征提取又不受无关变量干扰的数据表示。框架在多个公共数据集上进行了基准测试，并证明了集成学习在不同的图模型下可以显著提高性能。

Jul, 2020