CrowdER：众包实体解析

Aug, 2012

CrowdER: Crowdsourcing Entity Resolution

Jiannan Wang, Tim Kraska, Michael J. Franklin, Jianhua Feng

TL;DR本文提出了一种混合人机的方法来解决实体解析问题，该方法结合了机器的计算速度和人类的判断能力，使用流行的众包平台在真实数据集上进行了广泛的实验，获得了高精度和高效率的解决方案。

Abstract

entity resolution is central to data integration and data cleaning. Algorithmic approaches have been improving in quality, but remain far

entity resolution data integration data cleaning hybrid human-machine approach crowdsourcing platform

发现论文，激发创造

众包实体消解中的第一启发式理论分析

本文研究使用围绕众包的启发式算法解决实体识别问题，分析了常见的算法并提供了实验和信息理论下界的支持。

Feb, 2017

使用众包技术的容错实体关系解析

本文章研究了如何通过鲁棒数据解释和任务分配等策略来最大化实体解析的结果质量和信息利用，从而在保证准确性的同时，最小化任务请求者的成本。

Dec, 2015

大数据下的端到端实体解析：一项调查

本文首次提供现代实体解析工作流的全面视图，并介绍了实体索引和匹配方法的新颖方面，旨在同时应对多个大数据特征的挑战。文章从数据库、语义 Web 和机器学习三个方面分别阐述了基本概念、处理步骤和任务策略，并最终提供了现有方法的综合讨论，最后详细介绍了未来研究方向。

May, 2019

基于（深度）学习匹配算法的基准数据集的重要再评估

本研究提出了四种评估 13 个常用数据集难易度和适用性的方法，并发现大多数数据集对于评估基于机器学习的匹配算法来说过于简单。因此，提出了一种新的方法来生成更具挑战性的基准数据集。

Jul, 2023

以领域自适应为基础的众包学习：一项针对命名实体识别的案例研究

本文提出了一种基于领域适应的、适用于众包的注释者感知特征学习模型，以减小众包注释的干扰，实现有效的监督式学习，将其应用于命名实体识别任务中，通过实验验证其在无或少量专家注释的情况下也可以实现极佳的效果，并取得了新的最高性能。

May, 2021

可靠众包系统的预算最优任务分配

本文考虑众包任务分配中的可靠性问题，提出了一种基于置信传播和低秩矩阵逼近的算法来决定如何分配任务，并从工人的答案中推断出正确答案。比较了不同算法的表现，发现基于者非自适应的算法是最优的。此外，还强调了建立可靠的工人信誉系统对于完全运用自适应设计的潜力至关重要。

Oct, 2011

众包数据库的主动学习

本研究提出一种将机器学习与众包数据库结合的主动学习算法，以实现众包应用程序的可扩展性，并通过实验证明：相比于以往的主动学习方案，我们的方法平均只需要人类标记 1-2 个数量级的数据集就能实现与随机采样相同的精度。

Sep, 2012

(几乎) 所有实体解析

文章综述了记录链接、实体解析、概率论、聚类和规范化等领域的历史发展、目前应用和未来研究方向。

Aug, 2020

DeepER -- 深度实体分辨

本文介绍了一种名为 DeepER 的新型实体解析（ER）系统，该系统利用了先进的深度学习技术，通过使用递归神经网络（RNN）和分布式表示（即向量）等方法。提高了解析准确性、效率和易用性，相比传统机器学习方法无需人工标记数据和手工制定特征和相似性函数阈值。在多个数据集上进行测试的实验结果表明，DeepER 优于现有的解决方案。

Oct, 2017

医学关系提取的众包真实性数据

使用 CrowdTruth 方法通过众包获得医疗关系提取的注释数据集，并通过建模歧义性提高数据质量并减少成本，展示了在人类和机器性能方面均考虑歧义性时的加权测量精度、召回率和 F 度量的优势。

Jan, 2017