StackOverflow 中的实体集合扩展

Dec, 2022

Entity Set Co-Expansion in StackOverflow

Yu Zhang, Yunyi Zhang, Yucheng Jiang, Martin Michalski, Yu Deng...

TL;DR研究如何同时处理多个种子实体类型并利用预先训练的语言模型来协同扩展与软件相关的领域中实体集。提出了一个新的 SECoExpan 框架对现有方法进行了改进，并在实验中获得了显著的改进。

Abstract

Given a few seed entities of a certain type (e.g., Software or Programming Language), entity set expansion aims to discover an extensive set of entities that share the same type as the seeds. entity set expansion

entity set expansion software-related domains stackoverflow co-expansion pre-trained language models

发现论文，激发创造

通过语言模型探测增强实体集扩展

本文提出了一种迭代的实体集扩展框架，利用自动生成的类名解决语义漂移问题，通过在预训练的语言模型中探测选择一个正类和若干负类，评分新的候选实体。实验表明，该框架可以生成高质量的类名，并显著优于以前的最新方法。

Apr, 2020

从检索到生成：高效和有效的实体集扩展

本文提出了一种基于生成式预训练语言模型实现的实体集扩展框架（GenExpan），用自动化生成的类名引导模型生成目标实体，并提出了知识标定和生成排名以进一步填补语言模型通用知识与 ESE 任务目标之间的差距，实验结果表明 GenExpan 在扩展时间和扩展性能方面都优于现有 ESE 方法。

Apr, 2023

基于语料库及辅助集生成与协同扩展的集合扩展引导

本文提出了一种新的框架 Set-CoExpan，它可以自动生成辅助负集作为联系紧密的与用户所需目标集相关的负向集，通过将目标集与辅助集进行比较提取区分特征，形成多个互不相同的相互关联的集合，从而解决语义漂移问题。实验证明，通过生成辅助集，可以引导目标集的扩展过程，从而避免触及边界周围的模糊区域，同时 Set-CoExpan 可以显著优于强基线方法。

Jan, 2020

基于语料库的集合扩展：通过上下文特征选择和排名集成实现

本文提出了一种基于语料库的集合扩展方法，通过选择干净的上下文特征计算实体分布相似度和基于去噪上下文特征的排序无监督集成方法，该方法在三个数据集上的实验证明是健壮的且优于之前的最新方法。

Oct, 2019

SynSetExpan: 一个迭代式框架，用于联合实体集拓展和同义词发现

本文提出一种名为 SynSetExpan 的 NLP 框架，该框架能够同时进行实体集扩展和同义词发现两项任务，二者相互促进，通过众包打造了第一个大规模的同义词增强集扩展数据集 SE2，实验表明 SynSetExpan 在处理这两项任务时均具有效性。

Sep, 2020

基于术语集扩展的英特尔 AI 实验室自然语言处理框架

SetExpander 是一个基于语料库的系统，可以将种子集中的词扩展为与之相同语义类别的完整词集，能被应用于自动化招聘系统和问题缺陷解决系统，使领域特定的细粒度语义类别的提取更加简便。

Aug, 2018

使用硬负实体进行对比学习以扩展实体集

本文提出一个利用掩蔽语言模型和概率性扩展框架进行实体集扩展的方法，实验结果表明其在三个数据集上优于现有最先进方法。

Apr, 2022

实体集扩展的自动生成上下文模式

本研究提出了一种新的实体集扩展 (ESE) 范例，即独立于语料库的 ESE，并使用自回归语言模型自动生成高质量的上下文模式，通过 GAPA 框架扩展目标实体，并在三个广泛使用的数据集上进行了全面的实验和详细的分析，结果表明该方法非常有效。

Jul, 2022

GausSetExpander: 实体集扩展的简单方法

本文提出了一种无监督方法 GausSetExpander，基于最优传输技术，对实体集扩展的任务进行重新构建，将其视为选择最佳完成种子集的实体问题。我们将集合解释为具有代表均值的质心和由比例参数表示的扩展的椭圆分布，最好的实体是使集合的扩展最小的实体。通过与最先进的方法进行比较，我们证明了我们的方法的有效性。

Feb, 2022

基于多语境词嵌入的术语集扩展：一种端到端工作流程

本文介绍了 SetExpander—— 一个语料库为基础的系统，用于扩展语义类别中种子术语的集合，使用迭代式端到端工作流实现了术语集扩展，已用于解决实际应用场景，例如集成到自动化招聘系统和问题解决系统中。

Jul, 2018