实体匹配的神经网络：一项综述

KDDOct, 2020

Neural Networks for Entity Matching: A Survey

Nils Barlaug, Jon Atle Gulla

TL;DR本综述论文对深度学习技术在实体配对中的应用进行了系统性的总结和分类，讨论了现有技术在实体配对所需的各个步骤上的不同应用和相应的贡献，提出了深度神经网络在实体配对中相对于传统方法的优越性。

Abstract

entity matching is the problem of identifying which records refer to the same real-world entity. It has been actively researched for decades, and a variety of different approaches have been developed. Even today, it remains a challenging problem, and there is still generous room for im

entity matching neural networks deep learning natural language processing taxonomy

发现论文，激发创造

基于深度学习的实体链接模型综述

综述了自 2015 年以来，神经实体链接 (EL) 系统的最新发展，目的是系统化神经实体链接系统的设计特征，并将其性能与常见基准测试中的经典方法进行比较。该文从候选生成、提及 - 上下文编码和实体排名等方面讨论了神经 EL 系统的通用架构，总结了每个方法的突出特点。

May, 2020

深度学习模型中命名实体识别的最近进展综述

本文综述了深度神经网络在命名实体识别方面的应用，相对于传统的基于特征工程和监督或半监督学习算法的实体识别方法，神经网络在该领域中取得了更好的效果，并表明吸收过去的基于特征的 NER 系统的一些经验教训可以进一步提高性能。

Oct, 2019

从自然语言解释中学习以实现通用的实体匹配

将实体匹配重新定义为条件生成任务，借助自然语言解释将大型语言模型的推理方式 “精简” 到较小实体匹配模型中，从而达到强大的性能表现。

Jun, 2024

命名实体识别的深度学习调查

本文基于三个维度的分类法，系统地回顾了深度学习在命名实体识别上的应用技术，并介绍了面临的挑战和未来的研究方向。

Dec, 2018

低资源实体匹配问题中的战舰策略

通过使用先前训练的语言模型的深度学习方法，本研究提出了一种解决实体匹配问题的新的主动学习方法，该方法利用实体匹配的独特属性进行选择机制，将低资源实体匹配问题视为一种战舰游戏，通过感知潜在空间，并仔细规划下一个采样迭代来捕捉指示性样本。经过广泛的实验分析，该算法优于最先进的主动学习解决方案，并且尽管使用更少的样本，可以与最先进的完全训练已知算法一样成功。

Nov, 2023

近期命名实体识别研究进展综述

命名实体识别（NER）旨在从文本中提取命名真实世界对象并确定它们的类型，本文首先概述了最近流行的方法，然后探讨了其他调查中较少涉及的基于图和变换器的方法，包括大型语言模型（LLMs）。其次，重点介绍了适用于稀缺注释数据集的方法。第三，我们评估了主要 NER 实现在不同类型的数据集上的性能，并对从未共同考虑过的算法进行了深入比较。我们的实验揭示了数据集特征如何影响我们比较的方法的行为。

Jan, 2024

基于深度循环网络的公司名称消歧

该研究提出了一种基于 Siamese LSTM 网络、有监督学习的方法来从相对较低的维度向量空间中提取公司名称字符串的嵌入，同时使用 Active Learning 来优化样本标注的过程，以获得更高的效率和更好的性能。研究显示在足够有标注数据的情况下，该模型表现优于基于标准字符串匹配算法的基准模型，同时使用 Active Learning 能够在有限的数据标记资源下达到相同的性能，从而将模型训练的成本降至最少。

Mar, 2023

对话中问题检索和下一问题预测的神经匹配模型

本论文介绍了利用深度神经网络训练的神经匹配模型来解决提问检索和会话中的下一个问题预测的任务，并进行了实验和评估，证明神经匹配模型在这两个任务中表现良好。

Jul, 2017

实体中心信息抽取的神经网络方法

研究自然语言处理的 NLP 和人工智能领域对实体理解的影响，提出了基于实体概念的方法，并介绍了如何在实体链接任务中使用这种方法。通过核指代文簇难题进行了实验研究，分析了知识库实体集成到文本中的方法并从时间视角分析了实体的演变。

Apr, 2023

基于（深度）学习匹配算法的基准数据集的重要再评估

本研究提出了四种评估 13 个常用数据集难易度和适用性的方法，并发现大多数数据集对于评估基于机器学习的匹配算法来说过于简单。因此，提出了一种新的方法来生成更具挑战性的基准数据集。

Jul, 2023