经验贝叶斯方法用于真相发现问题

Jun, 2022

经验贝叶斯方法用于真相发现问题

Empirical Bayes approach to Truth Discovery problems

Tsviel Ben Shabat, Reshef Meir, David Azriel

TL;DR本文提出了一种基于经验贝叶斯估计（EBE）的真相发现算法，该算法不仅考虑了各方数据提供者的能力估计，还引入了 EBE 作为第二步骤以进一步减少预期误差。

Abstract

When aggregating information from conflicting sources, one's goal is to find the truth. Most real-value \emph{truth discovery} (TD) algorithms try to achieve this goal by estimating the competence of each source and then aggregating the conflicting information by weighing each source's

truth discovery competence estimation empirical bayes estimator weighted mean aggregation expected error reduction

发现论文，激发创造

令人沮丧的简单真相发现

本文研究了一种简单的启发式方法来估计工人的能力，使用平均接近度来区分高质量和低质量的工人以及证明了这种方法在广泛的领域和统计模型中能够很好地估计实际能力水平，并且在众包平台上按照工人的平均接近度加权会显著提高聚合结果。该简单的估计是具有恒定正则化因子的 MLE 中的唯一解，在高斯噪声下表现出色。

May, 2019

基于贝叶斯方法的冲突数据源真相发现数据整合

本研究提出了一个基于概率图模型的方法，可以自动推断真实记录和数据源质量，为解决数据集成中存在的真实性问题提供了一种新的方法。在两个真实世界的数据集上进行实验，我们的方法在真实性问题方面优于现有的最先进方法。

Mar, 2012

关于真实性发现的调查

该调查综述论文讨论了多种真实性发现方法，它们的可靠性评估和正在应用的多个应用领域，并提出一些未来方向的探讨。

May, 2015

真相发现算法中的公平性和偏见：实验分析

本文通过对两个人群标签数据集的系统研究发现，群体中存在个体提供有偏差的结果，采用简单的真值发现方法是次优的。同时，流行的真值发现算法并非万能，传统的公平性实现方法和纠正标签偏差的方法在这种情况下也无效。因此本文恳请设计新颖的具有偏差意识的真值发现算法来缓和这些问题。

Apr, 2023

通过潜在解释变量估计增强公平性的 BaBE

The paper proposes a pre-processing method called BaBE (Bayesian Bias Elimination) which combines Bayes inference and the Expectation-Maximization method to estimate the most likely value of the latent variable E, overcoming the correlation between the sensitive attribute S and the legitimate attribute E, thus achieving fairness and high accuracy.

Jul, 2023

贝叶斯元先学习：基于经验贝叶斯的方法

本文提出了一种层次经验贝叶斯方法，以解决实际问题中面临的挑战，即缺乏信息先验和无法控制参数学习速率的问题。该方法从数据本身学习经验元先验，并将它们用于解耦 GLM 中的一阶和二阶特征的学习速率。作者将其应用于标准监督学习优化问题以及在线组合优化问题中，在实验中表现出了显著的改进。

Feb, 2020

无监督观点聚合 —— 统计角度

本论文探讨了一种统计方法，利用专家的意见而无需真实的事实来推断每位专家的能力，并利用众人之智的原理测量每位专家的能力，进而提出一种完全无监督的朴素贝叶斯分类器的技术，并证明该技术在大类问题中是渐进最优的。同时，将该方法应用于大规模意见聚合、基于有限意见的决策制定。

Aug, 2023

带有经验先验的实体解析

本文提出了一种基于经验贝叶斯原则的记录链接方法，该方法使用数据的经验分布函数作为潜在实体的先验，同时允许分类和字符串值变量，包括一种新的概率机制，可以使观察记录值与其关联的潜在实体的值偏离。作者将该方法应用于一个德国名字的模拟数据集和一个意大利家庭调查，并表明该方法执行良好。

Sep, 2014

无需几乎没有训练的聚合相关估计

通过考虑相关性，本文提出了不同的聚合规则，并将它们与朴素规则进行了比较。通过基于合成数据的各种实验证明，当关于误差之间的相关性已知足够信息时，最大似然聚合应该优先考虑。否则，通常情况下，建议使用一种称为嵌入式投票（EV）的方法。

Sep, 2023

使用广义变分推断的动态贝叶斯网络的经验贝叶斯

通过经验贝叶斯方法学习动态贝叶斯网络的研究，使用数据驱动的先验获得模型以量化不确定性，结合广义变分推断的最新发展，表明了对 DAG 结构和参数后验的不确定性的采样的潜力。

Jun, 2024