通过语言模型探测增强实体集扩展

ACLApr, 2020

通过语言模型探测增强实体集扩展

Empower Entity Set Expansion via Language Model Probing

Yunyi Zhang, Jiaming Shen, Jingbo Shang, Jiawei Han

TL;DR本文提出了一种迭代的实体集扩展框架，利用自动生成的类名解决语义漂移问题，通过在预训练的语言模型中探测选择一个正类和若干负类，评分新的候选实体。实验表明，该框架可以生成高质量的类名，并显著优于以前的最新方法。

Abstract

entity set expansion, aiming at expanding a small seed entity set with new entities belonging to the same semantic class, is a critical task that benefits many downstream →

entity set expansion nlp ir semantic class language model

发现论文，激发创造

从检索到生成：高效和有效的实体集扩展

本文提出了一种基于生成式预训练语言模型实现的实体集扩展框架（GenExpan），用自动化生成的类名引导模型生成目标实体，并提出了知识标定和生成排名以进一步填补语言模型通用知识与 ESE 任务目标之间的差距，实验结果表明 GenExpan 在扩展时间和扩展性能方面都优于现有 ESE 方法。

Apr, 2023

基于语料库及辅助集生成与协同扩展的集合扩展引导

本文提出了一种新的框架 Set-CoExpan，它可以自动生成辅助负集作为联系紧密的与用户所需目标集相关的负向集，通过将目标集与辅助集进行比较提取区分特征，形成多个互不相同的相互关联的集合，从而解决语义漂移问题。实验证明，通过生成辅助集，可以引导目标集的扩展过程，从而避免触及边界周围的模糊区域，同时 Set-CoExpan 可以显著优于强基线方法。

Jan, 2020

StackOverflow 中的实体集合扩展

研究如何同时处理多个种子实体类型并利用预先训练的语言模型来协同扩展与软件相关的领域中实体集。提出了一个新的 SECoExpan 框架对现有方法进行了改进，并在实验中获得了显著的改进。

Dec, 2022

SynSetExpan: 一个迭代式框架，用于联合实体集拓展和同义词发现

本文提出一种名为 SynSetExpan 的 NLP 框架，该框架能够同时进行实体集扩展和同义词发现两项任务，二者相互促进，通过众包打造了第一个大规模的同义词增强集扩展数据集 SE2，实验表明 SynSetExpan 在处理这两项任务时均具有效性。

Sep, 2020

基于语料库的集合扩展：通过上下文特征选择和排名集成实现

本文提出了一种基于语料库的集合扩展方法，通过选择干净的上下文特征计算实体分布相似度和基于去噪上下文特征的排序无监督集成方法，该方法在三个数据集上的实验证明是健壮的且优于之前的最新方法。

Oct, 2019

使用硬负实体进行对比学习以扩展实体集

本文提出一个利用掩蔽语言模型和概率性扩展框架进行实体集扩展的方法，实验结果表明其在三个数据集上优于现有最先进方法。

Apr, 2022

基于术语集扩展的英特尔 AI 实验室自然语言处理框架

SetExpander 是一个基于语料库的系统，可以将种子集中的词扩展为与之相同语义类别的完整词集，能被应用于自动化招聘系统和问题缺陷解决系统，使领域特定的细粒度语义类别的提取更加简便。

Aug, 2018

GausSetExpander: 实体集扩展的简单方法

本文提出了一种无监督方法 GausSetExpander，基于最优传输技术，对实体集扩展的任务进行重新构建，将其视为选择最佳完成种子集的实体问题。我们将集合解释为具有代表均值的质心和由比例参数表示的扩展的椭圆分布，最好的实体是使集合的扩展最小的实体。通过与最先进的方法进行比较，我们证明了我们的方法的有效性。

Feb, 2022

通过从集合扩充中提取示例，通过语言探测推进关系抽取

关系抽取（RE）是一项在从非结构化文本中自动提取结构化信息的关键任务。本文提出了一种综合多方面方法，通过代表性示例和共集扩展来增强关系分类的准确性，并减轻对比类之间的混淆。通过与现有的微调方法相比，实证评估表明，该共集扩展方法使关系分类性能显著提高，准确性提升至少 1 个百分点。而通过对比例子的精心选择和调整，减少了共性类之间的混淆，进一步改善了分类过程。

Aug, 2023

基于多语境词嵌入的术语集扩展：一种端到端工作流程

本文介绍了 SetExpander—— 一个语料库为基础的系统，用于扩展语义类别中种子术语的集合，使用迭代式端到端工作流实现了术语集扩展，已用于解决实际应用场景，例如集成到自动化招聘系统和问题解决系统中。

Jul, 2018