通过语言模型探测增强实体集扩展
本文提出了一种基于生成式预训练语言模型实现的实体集扩展框架(GenExpan),用自动化生成的类名引导模型生成目标实体,并提出了知识标定和生成排名以进一步填补语言模型通用知识与 ESE 任务目标之间的差距,实验结果表明 GenExpan 在扩展时间和扩展性能方面都优于现有 ESE 方法。
Apr, 2023
本文提出了一种新的框架 Set-CoExpan,它可以自动生成辅助负集作为联系紧密的与用户所需目标集相关的负向集,通过将目标集与辅助集进行比较提取区分特征,形成多个互不相同的相互关联的集合,从而解决语义漂移问题。实验证明,通过生成辅助集,可以引导目标集的扩展过程,从而避免触及边界周围的模糊区域,同时 Set-CoExpan 可以显著优于强基线方法。
Jan, 2020
研究如何同时处理多个种子实体类型并利用预先训练的语言模型来协同扩展与软件相关的领域中实体集。提出了一个新的 SECoExpan 框架对现有方法进行了改进,并在实验中获得了显著的改进。
Dec, 2022
本文提出一种名为 SynSetExpan 的 NLP 框架,该框架能够同时进行实体集扩展和同义词发现两项任务,二者相互促进,通过众包打造了第一个大规模的同义词增强集扩展数据集 SE2,实验表明 SynSetExpan 在处理这两项任务时均具有效性。
Sep, 2020
本文提出了一种基于语料库的集合扩展方法,通过选择干净的上下文特征计算实体分布相似度和基于去噪上下文特征的排序无监督集成方法,该方法在三个数据集上的实验证明是健壮的且优于之前的最新方法。
Oct, 2019
SetExpander 是一个基于语料库的系统,可以将种子集中的词扩展为与之相同语义类别的完整词集,能被应用于自动化招聘系统和问题缺陷解决系统,使领域特定的细粒度语义类别的提取更加简便。
Aug, 2018
本文提出了一种无监督方法 GausSetExpander,基于最优传输技术,对实体集扩展的任务进行重新构建,将其视为选择最佳完成种子集的实体问题。我们将集合解释为具有代表均值的质心和由比例参数表示的扩展的椭圆分布,最好的实体是使集合的扩展最小的实体。通过与最先进的方法进行比较,我们证明了我们的方法的有效性。
Feb, 2022
关系抽取(RE)是一项在从非结构化文本中自动提取结构化信息的关键任务。本文提出了一种综合多方面方法,通过代表性示例和共集扩展来增强关系分类的准确性,并减轻对比类之间的混淆。通过与现有的微调方法相比,实证评估表明,该共集扩展方法使关系分类性能显著提高,准确性提升至少 1 个百分点。而通过对比例子的精心选择和调整,减少了共性类之间的混淆,进一步改善了分类过程。
Aug, 2023
本文介绍了 SetExpander—— 一个语料库为基础的系统,用于扩展语义类别中种子术语的集合,使用迭代式端到端工作流实现了术语集扩展,已用于解决实际应用场景,例如集成到自动化招聘系统和问题解决系统中。
Jul, 2018