众包实体消解中的第一启发式理论分析

AAAIFeb, 2017

众包实体消解中的第一启发式理论分析

A Theoretical Analysis of First Heuristics of Crowdsourced Entity Resolution

Arya Mazumdar, Barna Saha

TL;DR本文研究使用围绕众包的启发式算法解决实体识别问题，分析了常见的算法并提供了实验和信息理论下界的支持。

Abstract

entity resolution (ER) is the task of identifying all records in a database that refer to the same underlying entity, and are therefore duplicates of each other. Due to inherent ambiguity of data representation a

entity resolution duplicates crowdsourcing similarity matrix heuristic algorithms

发现论文，激发创造

使用众包技术的容错实体关系解析

本文章研究了如何通过鲁棒数据解释和任务分配等策略来最大化实体解析的结果质量和信息利用，从而在保证准确性的同时，最小化任务请求者的成本。

Dec, 2015

CrowdER：众包实体解析

本文提出了一种混合人机的方法来解决实体解析问题，该方法结合了机器的计算速度和人类的判断能力，使用流行的众包平台在真实数据集上进行了广泛的实验，获得了高精度和高效率的解决方案。

Aug, 2012

大数据下的端到端实体解析：一项调查

本文首次提供现代实体解析工作流的全面视图，并介绍了实体索引和匹配方法的新颖方面，旨在同时应对多个大数据特征的挑战。文章从数据库、语义 Web 和机器学习三个方面分别阐述了基本概念、处理步骤和任务策略，并最终提供了现有方法的综合讨论，最后详细介绍了未来研究方向。

May, 2019

个人知识图谱中的命名实体解析

实体消解是确定两个实体是否指向相同基础实体的问题。本章将讨论在个人知识图谱（PKG）环境下的命名实体消解问题，包括问题的形式化定义、进行高质量和高效实体消解所需的组件、面临的挑战、现有技术在 PKG 中的应用、一些应用案例以及未来研究的方向。

Jul, 2023

基于（深度）学习匹配算法的基准数据集的重要再评估

本研究提出了四种评估 13 个常用数据集难易度和适用性的方法，并发现大多数数据集对于评估基于机器学习的匹配算法来说过于简单。因此，提出了一种新的方法来生成更具挑战性的基准数据集。

Jul, 2023

(几乎) 所有实体解析

文章综述了记录链接、实体解析、概率论、聚类和规范化等领域的历史发展、目前应用和未来研究方向。

Aug, 2020

ZeroER: 使用零标记样本进行实体消歧

该研究探讨了一种无监督学习的方法，使用高斯混合模型等工具实现了基于相似度向量的实体解析算法，该算法不需要标注数据，但能够实现与有标注数据的算法相近的性能表现，且在五个基准数据集上的表现优于现有的无监督方法。

Aug, 2019

DeepER -- 深度实体分辨

本文介绍了一种名为 DeepER 的新型实体解析（ER）系统，该系统利用了先进的深度学习技术，通过使用递归神经网络（RNN）和分布式表示（即向量）等方法。提高了解析准确性、效率和易用性，相比传统机器学习方法无需人工标记数据和手工制定特征和相似性函数阈值。在多个数据集上进行测试的实验结果表明，DeepER 优于现有的解决方案。

Oct, 2017

AI 实体解析中低成本相关性生成和评估度量

本文提出了一种低成本的实体解析框架，通过使用用户的隐式和显式反馈信号生成特征，生成相关数据集来测量实体解析性能，并引入了一组度量标准来准确地测量 ER 系统在各个维度上的表现。这些度量标准提供了很大的可解释性，可以深入挖掘和识别 ER 问题的根本原因，无论问题出在相关性生成或者排名上。

May, 2022

低资源的实体对齐问题：迁移和主动学习方法

本文提出了一种针对数据集资源匮乏的实体消歧问题的深度学习方法，通过转移学习和主动学习的结合，构建了一个可迁移的模型用于适应缺乏标记数据的场景，并通过有针对性地选择信息样本进行微调，验证表明该方法在实际应用中比当今学习方法使用的少数标记数据量的性能要好得多。

Jun, 2019