面向实体解析的通用密集阻塞

Apr, 2024

Towards Universal Dense Blocking for Entity Resolution

Tianshu Wang, Hongyu Lin, Xianpei Han, Xiaoyang Chen, Boxi Cao...

TL;DR本文提出了一种基于自监督对比学习的预训练域无关稠密阻塞方法 UBlocker，它能够适应多种下游阻塞场景，并在实验中表现出优异的性能，在不需要领域特定微调的情况下显著优于以前的自监督稠密阻塞方法及稀疏阻塞方法。

Abstract

blocking is a critical step in entity resolution, and the emergence of neural network-based representation models has led to the development of dense →

blocking neural network dense blocking contrastive learning entity resolution

发现论文，激发创造

AutoBlock：一种无需干预的实体匹配阻塞框架

本文提出了一种基于相似度保留表示学习和最近邻搜索的新型无需人工干预的数据实体匹配屏蔽框架 AutoBlock，其优点包括自动化、可扩展性和高效性，在多个大规模、现实世界数据集上表现出色，尤其是在数据集不清洁或不结构化时。

Dec, 2019

ShallowBlocker：提升用于阻塞的集合相似性连接

本文提出了一种基于传统字符串相似度度量的无需人工干预的阻塞方法：ShallowBlocker，它使用了新颖的混合集相似度连接方法，结合绝对相似度、相对相似度和本地基数条件，并采用一种有效的预候选过滤器代替大小过滤器。我们展示了该方法在可扩展的无监督和有监督阻塞上取得了最先进的成对效果。

Dec, 2023

DeepER -- 深度实体分辨

本文介绍了一种名为 DeepER 的新型实体解析（ER）系统，该系统利用了先进的深度学习技术，通过使用递归神经网络（RNN）和分布式表示（即向量）等方法。提高了解析准确性、效率和易用性，相比传统机器学习方法无需人工标记数据和手工制定特征和相似性函数阈值。在多个数据集上进行测试的实验结果表明，DeepER 优于现有的解决方案。

Oct, 2017

实体解析的预训练嵌入：实验分析

本研究评估了 12 种语言模型在 17 个基准数据集上的效能，研究结果提供了各种语言模型的优缺点，帮助研究人员和从业人员选择最合适的模型。

Apr, 2023

为实体检索学习密集表示

使用双编码器模型，在相同的密集向量空间中对实体和提及进行编码，并通过近似最近邻搜索检索候选实体，从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器，该方法优于离散别名表和 BM25 基线，并且与标准 TACKBP-2010 数据集中最佳结果相当，还可以快速检索候选者，并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面，我们演示了无监督的负采矿算法在这一任务中的重要作用。

Sep, 2019

无监督对比学习密集信息检索

本文介绍一种无监督训练的密集感知器，使用对比学习 (contrastive learning) 的方法，提高了信息检索的性能，并在多语言检索中表现出强大的跨语言转移能力。

Dec, 2021

正交转换生成的超密词向量嵌入

本文介绍了 DENSIFIER，一种能够在词嵌入空间中学习正交变换，将与任务相关的信息聚焦在一个比原始空间小 100 倍的超密集子空间中的方法。我们展示了由 DENSIFIER 生成的超密嵌入在词库创建任务中达到了最先进水平，并在 SemEval2015 10B 情感分析任务中表明超密集子空间的使用不会损失任何信息，但由于超密空间的紧凑性，训练效率提高了一个数量级。

Feb, 2016

Blockout: 面向分层深层网络的动态模型选择

提出了 Blockout 方法，用于正则化和模型选择，同时学习了模型架构和参数，改进了分类准确性并更好地优化了表现。

Dec, 2015

多语种实体链接基于密集检索

实体链接是将文本提及与相应实体连接的计算过程。本论文通过开发多个系统，证明了即使资源有限，也可以构建在多种语言中运作的竞争性神经网络实体链接系统，从而使实体链接更容易接近。

May, 2024

DeCLUTR: 无监督文本表示的深度对比学习

本文介绍 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations，是一种无监督的学习通用语句嵌入的方法，其优于仅仅使用大规模数据集。该方法扩展了基于 Transformer 的语言模型的预训练，可以在大量的未标注培训数据下达到可监管培训的质量水平，这个解决方案可以应用于没有标注数据的语言和领域。该研究的代码和预训练模型是公开的，可以轻松地适应新的领域或用于嵌入以前不见过的文本。

Jun, 2020