面向实体解析的通用密集阻塞
本文提出了一种基于相似度保留表示学习和最近邻搜索的新型无需人工干预的数据实体匹配屏蔽框架 AutoBlock,其优点包括自动化、可扩展性和高效性,在多个大规模、现实世界数据集上表现出色,尤其是在数据集不清洁或不结构化时。
Dec, 2019
本文提出了一种基于传统字符串相似度度量的无需人工干预的阻塞方法:ShallowBlocker,它使用了新颖的混合集相似度连接方法,结合绝对相似度、相对相似度和本地基数条件,并采用一种有效的预候选过滤器代替大小过滤器。我们展示了该方法在可扩展的无监督和有监督阻塞上取得了最先进的成对效果。
Dec, 2023
本文介绍了一种名为 DeepER 的新型实体解析(ER)系统,该系统利用了先进的深度学习技术,通过使用递归神经网络(RNN)和分布式表示(即向量)等方法。提高了解析准确性、效率和易用性,相比传统机器学习方法无需人工标记数据和手工制定特征和相似性函数阈值。在多个数据集上进行测试的实验结果表明,DeepER 优于现有的解决方案。
Oct, 2017
使用双编码器模型,在相同的密集向量空间中对实体和提及进行编码,并通过近似最近邻搜索检索候选实体,从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器,该方法优于离散别名表和 BM25 基线,并且与标准 TACKBP-2010 数据集中最佳结果相当,还可以快速检索候选者,并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面,我们演示了无监督的负采矿算法在这一任务中的重要作用。
Sep, 2019
本文介绍一种无监督训练的密集感知器,使用对比学习 (contrastive learning) 的方法,提高了信息检索的性能,并在多语言检索中表现出强大的跨语言转移能力。
Dec, 2021
本文介绍了 DENSIFIER,一种能够在词嵌入空间中学习正交变换,将与任务相关的信息聚焦在一个比原始空间小 100 倍的超密集子空间中的方法。我们展示了由 DENSIFIER 生成的超密嵌入在词库创建任务中达到了最先进水平,并在 SemEval2015 10B 情感分析任务中表明超密集子空间的使用不会损失任何信息,但由于超密空间的紧凑性,训练效率提高了一个数量级。
Feb, 2016
实体链接是将文本提及与相应实体连接的计算过程。本论文通过开发多个系统,证明了即使资源有限,也可以构建在多种语言中运作的竞争性神经网络实体链接系统,从而使实体链接更容易接近。
May, 2024
本文介绍 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations,是一种无监督的学习通用语句嵌入的方法,其优于仅仅使用大规模数据集。该方法扩展了基于 Transformer 的语言模型的预训练,可以在大量的未标注培训数据下达到可监管培训的质量水平,这个解决方案可以应用于没有标注数据的语言和领域。该研究的代码和预训练模型是公开的,可以轻松地适应新的领域或用于嵌入以前不见过的文本。
Jun, 2020