为高效和通用的超细实体类型定义校准的 Seq2seq 模型

Nov, 2023

为高效和通用的超细实体类型定义校准的 Seq2seq 模型

Calibrated Seq2seq Models for Efficient and Generalizable Ultra-fine Entity Typing

Yanlin Feng, Adithya Pratapa, David R Mortensen

TL;DR使用 CASENT 模型，采用序列到序列方法，并预测带有经过校准的置信度分数的超精确类型，通过在 UFET 数据集上的实验证明其在 F1 得分和校准误差方面优于现有最先进方法，同时推断速度提高了 50 多倍，并在零样本和少样本情况下，在五个专业领域实体类型数据集上展示了其泛化能力，惊人的是，在零样本设置下，我们的模型在超过 10 倍参数的大型语言模型上取得了更好的性能，在使用 50 个示例进行微调时，它在所有数据集上显著优于 ChatGPT。

Abstract

ultra-fine entity typing plays a crucial role in information extraction by predicting fine-grained semantic types for entity mentions in text. However, this task poses significant challenges due to the massive number of entity types in the output space. The current state-of-the-art app

ultra-fine entity typing seq2seq model calibrated confidence scores ufet dataset zero-shot and few-shot settings

发现论文，激发创造

从超细到精细：微调超细实体类型模型至细粒度

通过使用超细粒度实体类型数据训练一个具有极广泛类型覆盖的实体类型模型，然后在新设计的细粒度实体类型模式下，通过少量手动标注的样本对先前训练的模型进行微调，我们提出了一种新的方法，能够避免在新类型架构时创建远距离标记数据的需求，并在低样本学习设置下实现出色的细粒度实体类型识别性能。

Dec, 2023

超细粒度实体类型化

介绍了一种新的实体类型任务，使用头词来进行大规模远程监督，利用多任务目标训练模型，实现对实体类型的预测，对这一方法进行了实验评估并提供相关数据和模型。

Jul, 2018

通过自然语言推理的间接监督进行超细实体类型标注

LITE is a natural language inference-based approach for ultra-fine entity typing, addressing the data scarcity issue and achieving state-of-the-art performance and strong generalizability.

Feb, 2022

利用标签的先验知识进行细粒度实体类型划分：一种简单的基于聚类的策略

本文提出了一种简单的技术，使用预训练的标签嵌入将标签聚类形成语义领域，并将这些领域作为附加类型来改进现有的 UFET 模型的性能。同时作者还使用标签聚类作为后处理技术，进一步提高了模型性能。

May, 2023

利用神经对偶条件随机场建模标签相关性以进行超细实体类型划分

使用 pairwise conditional random field (PCRF) 设计了一种神经网络模块 Neural-PCRF，它能够提高实体类型推理任务中的性能，同时能够加速推理并在现有数据集上具有选择性。

Dec, 2022

利用来自掩蔽语言模型的弱监督进行超细实体类型识别

本文提出了使用 BERT 遮盖语言模型 (Masked Language Model) 获得超细粒度实体类型的训练数据，并构建一个输入使其产生预测上下文相关的超类词表中的概念，其可用作类型标签。在实验结果中表明，通过这些自动生成的标签，超细粒度实体类型模型的性能大大提高。同时，我们还展示了这种方法可以用于改进传统的细粒度实体类型。

Jun, 2021

自动标签解释与实例生成的少样本细粒度实体类型划分

本文提出了一个新的架构，包括两个模块：（1）实体类型标签解释模块，自动学习将类型标签与词汇表相关联的方法，（2）基于类型的上下文实例生成器，根据给定实例生成新实例，以扩大训练集以获得更好的泛化能力。在三个基准数据集上，该模型的性能明显高于现有方法。

Jun, 2022

自然与工程领域中的种子引导细粒度实体分类

研究了在科学和工程领域中基于种子引导的细粒度实体类型的任务，该任务利用名称和少量种子实体作为唯一的监督，旨在将新的实体提及分类为已知和未知类型，并提出了 SEType 方法来解决该问题。

Jan, 2024

去噪增强远程监督的超细实体类型识别

本文提出一种新颖的超细实体类型模型，其具有去噪能力，通过建立一个噪声模型对输入的上下文和实体类型标签进行估计，从输入中减去估计噪声以恢复更可靠的标签，并采用双编码器结构训练去噪数据，噪声模型和实体类型模型迭代训练，以提高彼此的性能，在 Ultra-Fine 实体类型数据集以及 OntoNotes 数据集上表现显著优于其他基线方法。

Oct, 2022

零样本开放实体类型识别作为类型兼容接地

本文提出了一种无监督的零样本实体类型的方法，该方法可以弹性地识别新定义的类型，并利用 FREEBASE 的布尔函数进行自我推理。我们在包括生物领域的各种数据集上评估了该系统，并证明了它在超出领域的数据集上优于监督学习方法与其他零样本细粒度关键词方法。

Jul, 2019