使用硬负实体进行对比学习以扩展实体集
实体集拓展(ESE)以确定与给定的种子实体集属于相同语义类的新实体为目标,针对超细粒度的语义类,传统方法主要依赖于正向种子实体来代表目标语义类,在描述超细粒度语义类时遇到困难,因此我们引入负向种子实体解决这个问题,并构建了适用于超细粒度语义拓展的大规模数据集 UltraWiki,利用 RetExpan 和 GenExpan 两个框架综合评估大型语言模型在 Ultra-ESE 中的效果,并提出了三种策略来增强模型对超细粒度实体语义的理解。
Mar, 2024
本文提出了一种基于生成式预训练语言模型实现的实体集扩展框架(GenExpan),用自动化生成的类名引导模型生成目标实体,并提出了知识标定和生成排名以进一步填补语言模型通用知识与 ESE 任务目标之间的差距,实验结果表明 GenExpan 在扩展时间和扩展性能方面都优于现有 ESE 方法。
Apr, 2023
本研究提出了一种新的实体集扩展 (ESE) 范例,即独立于语料库的 ESE,并使用自回归语言模型自动生成高质量的上下文模式,通过 GAPA 框架扩展目标实体,并在三个广泛使用的数据集上进行了全面的实验和详细的分析,结果表明该方法非常有效。
Jul, 2022
多模态实体集扩展(MESE)的研究旨在通过整合多模态信息来扩展语义类别中的种子实体,构建了 MESED 数据集并提出了强大的多模态模型 MultiExpan,实验证明了数据集的高质量以及 MultiExpan 的有效性,并指出了未来的研究方向。
Jul, 2023
本文提出了一种迭代的实体集扩展框架,利用自动生成的类名解决语义漂移问题,通过在预训练的语言模型中探测选择一个正类和若干负类,评分新的候选实体。实验表明,该框架可以生成高质量的类名,并显著优于以前的最新方法。
Apr, 2020
本文提出一种名为 SynSetExpan 的 NLP 框架,该框架能够同时进行实体集扩展和同义词发现两项任务,二者相互促进,通过众包打造了第一个大规模的同义词增强集扩展数据集 SE2,实验表明 SynSetExpan 在处理这两项任务时均具有效性。
Sep, 2020
本文提出了一种基于语料库的集合扩展方法,通过选择干净的上下文特征计算实体分布相似度和基于去噪上下文特征的排序无监督集成方法,该方法在三个数据集上的实验证明是健壮的且优于之前的最新方法。
Oct, 2019
研究如何同时处理多个种子实体类型并利用预先训练的语言模型来协同扩展与软件相关的领域中实体集。提出了一个新的 SECoExpan 框架对现有方法进行了改进,并在实验中获得了显著的改进。
Dec, 2022
利用视觉 - 语义嵌入的新技术进行跨模态检索,通过采用 hard negative mining,结构化预测中的 hard negatives 和排名损失函数的结合,对多模态嵌入的常见损失函数进行简单改变,在微调和使用增强数据的情况下获得了显著的检索性能提升。作者在 MS-COCO 和 Flickr30K 数据集中展示了他们的方法 VSE ++,并使用消融研究和与现有方法的比较。在 MS-COCO 的图像和标题检索中,他们的方法在 R@1 上比现有技术方法分别提高了 11.3%和 8.8%。
Jul, 2017
本文提出了一种新的框架 Set-CoExpan,它可以自动生成辅助负集作为联系紧密的与用户所需目标集相关的负向集,通过将目标集与辅助集进行比较提取区分特征,形成多个互不相同的相互关联的集合,从而解决语义漂移问题。实验证明,通过生成辅助集,可以引导目标集的扩展过程,从而避免触及边界周围的模糊区域,同时 Set-CoExpan 可以显著优于强基线方法。
Jan, 2020