从 Web 表格中发现新实体

WWWFeb, 2020

Novel Entity Discovery from Web Tables

Shuo Zhang, Edgar Meij, Krisztian Balog, Ridho Reinanda

TL;DR这篇研究提出一种方法，通过挖掘网络表格中的信息来发现知识库中尚未链接的实体和关系，从而补充和完善知识库。研究结果表明，该方法有效提高了精度并保持回收率稳定。

Abstract

When working with any sort of knowledge base (KB) one has to make sure it is as complete and also as up-to-date as possible. Both tasks are non-trivial as they require recall-oriented efforts to determine which entities and relationships are missing from the KB. As such they require a

knowledge base web tables entity discovery relationship identification semantic inference

发现论文，激发创造

Wiki-TabNER：通过命名实体识别推进表格解释

为了弥补现有评估数据集的不足，本研究构建了一个更具挑战性的数据集，并引入了一种新颖的问题，用于解决实体链接任务，即对单元格中的命名实体进行识别。最后，我们提出了一个提示框架，以评估新开发的大型语言模型在这一新的表格解释任务上的表现。

Mar, 2024

基于内容的 Web 查询表格检索

本研究旨在解决自然语言处理中未结构化文本与半结构化表之间的关系问题，通过提出基于内容的表的检索方法，应用精心设计的特征和神经网络结构实现查找中最相关表格的目标，并发布了一个包含 21,113 个网络查询和 273,816 个表格的开放领域数据集，验证了该方法的有效性并提出了该任务的挑战。

Jun, 2017

ColNet: 嵌入 Web 表格的语义，预测列类型

本文提出了一个名为 ColNet 的神经网络列类型注释框架，它能够集成知识库推理和查找，自动训练卷积神经网络进行预测，不仅考虑了单元格内上下文语义，还从多个单元格中学习了列语义的局部特征，并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估，并取得了比最先进方法更高的性能。

Nov, 2018

仅需要你一点帮助就可以发现实体

论文提出了在缺乏背景知识和长尾实体的情况下，通过自动化生成实体出现位置的候选项并结合用户反馈来提高实体链接的准确性的方法。选择了基于梯度互缠的多样化和文本相关性方法作为生成候选项的方法，并在 FACC 数据集上进行了广泛的实验，展示了该方法的有效性。

Oct, 2018

表格数据中的实体链接需要正确的注意

本文研究如何将表格数据与知识库中的实体进行实体链接。通过引入一个名为 Tabular Entity Linking Lite (TELL) 的模型，可以在不依赖于查询目标知识库中事实的情况下，以常数内存使用量为代价获得与当今最先进的基于注意力机制的模型相当的结果。

Jul, 2022

学习表格数据的语义注释

本研究采用深度学习方法，通过利用表格的上下文语义特征和知识库查询算法，实现了对没有元数据的表格的列类型预测，不仅在单独的表格集上表现良好，转移学习到其他表格集也有良好的性能。

May, 2019

利用列关键词回答网络表查询

本文介绍了一种设计良好的结构化搜索引擎，它以每列的关键词描述为查询的关键词，并利用网络上的海量表格来回答查询，用图形化模型来映射多个表格，并基于句子共现、匹配和内容重叠来描述查询。实验结果表明，该引擎比基线 IR 方法有显著的提高。

Jun, 2012

将实体与任意模式的未见知识库连接

本文研究实体链接在零样本链接中的应用，介绍了一种灵活的方法来将实体从任意的知识库中转化为平面字符串，与零样本链接模型配合使用，通过两种规则方法的改进，实现了模型的精度提升，实验结果表明我们的模型优于基准模型，并且本文的方法也可以无缝地结合多个训练数据集。

Oct, 2020

S2abEL：科学表格中的实体链接数据集

本研究介绍了一个用于科学表格中实体链接的数据集 S2abEL，利用神经网络方法对在科学表格中许多基于知识库之外的提及进行实体链接，并在机器学习结果表格中的 8,429 个单元格上展示了显著优于最先进的通用表 EL 方法的表现。

Apr, 2023

科学文献表格实体链接实用系统

本文介绍了一个通用的实体链接系统，说明了如何将此系统适应域特定的实体，特别是那些内嵌在 COVID-19 相关科学文献中的实体。通过利用表格的结构和语义特征来提高整体实体链接性能，进一步推断科学表格的语义含义。

Jun, 2023