关于真实性发现的调查
本研究提出了一个基于概率图模型的方法,可以自动推断真实记录和数据源质量,为解决数据集成中存在的真实性问题提供了一种新的方法。在两个真实世界的数据集上进行实验,我们的方法在真实性问题方面优于现有的最先进方法。
Mar, 2012
本文研究了一种简单的启发式方法来估计工人的能力,使用平均接近度来区分高质量和低质量的工人以及证明了这种方法在广泛的领域和统计模型中能够很好地估计实际能力水平,并且在众包平台上按照工人的平均接近度加权会显著提高聚合结果。该简单的估计是具有恒定正则化因子的 MLE 中的唯一解,在高斯噪声下表现出色。
May, 2019
本文提出了一种基于经验贝叶斯估计(EBE)的真相发现算法,该算法不仅考虑了各方数据提供者的能力估计,还引入了 EBE 作为第二步骤以进一步减少预期误差。
Jun, 2022
本文描述了一种解决数据融合中冲突的信息,发现反映真实世界的价值的新方法,并给出了一个真实数据案例来证明该算法在大量数据源情况下可以显著提高真实价值的准确性和可扩展性。
Mar, 2015
本文研究了不同的信息融合技术在知识融合问题上应用的适用性和限制,从实体链接和模式对齐的角度分析了多个信息来源提取的真实主谓宾三元组,并将最先进的数据融合技术应用到包含 12 个提取器从超过 10 亿个网页中提取的 16 亿个独特的知识三元组的知识库中。通过该方法的详细错误分析,本文展示了数据融合方法在解决知识融合问题方面的巨大潜力,并提出了有趣的研究方向。
Mar, 2015
本文通过对两个人群标签数据集的系统研究发现,群体中存在个体提供有偏差的结果,采用简单的真值发现方法是次优的。同时,流行的真值发现算法并非万能,传统的公平性实现方法和纠正标签偏差的方法在这种情况下也无效。因此本文恳请设计新颖的具有偏差意识的真值发现算法来缓和这些问题。
Apr, 2023
本篇文章提出了使用 CrowdTruth 衡量指标来有效地收集多领域多任务的 ground truth 数据,比传统的投票方式更具优势,并研究了人数增加对标注质量的影响。
Sep, 2018
本研究提出了一种基于多个噪声数据源和 KG 中现有事实的知识图谱,采用图神经网络建议了一种整体评分函数,结合价值对齐网络解决了价值间的异质性并将其映射到实体,进而设计了一个真实推理模型,并采用半监督学习法从异构价值中推导出真实性。
Jan, 2022