分布式术语集扩展

Feb, 2018

Distributional Term Set Expansion

Amaru Cuba Gyllensten, Magnus Sahlgren

TL;DR本文是一个对中心度和分类基于迭代术语集扩展方法在使用分布语义模型时的性能的短期实证研究。研究发现，在使用不同的分布模型和不同的术语集时，基于主动学习的分类方法始终优于基于中心度的方法。

Abstract

This paper is a short empirical study of the performance of centrality and classification based iterative term set expansion methods for distributional semantic models. Iterative term set expansion is an interact

term set expansion distributional semantic models centrality-based methods classification methods active learning

发现论文，激发创造

通过语言模型探测增强实体集扩展

本文提出了一种迭代的实体集扩展框架，利用自动生成的类名解决语义漂移问题，通过在预训练的语言模型中探测选择一个正类和若干负类，评分新的候选实体。实验表明，该框架可以生成高质量的类名，并显著优于以前的最新方法。

Apr, 2020

一种两阶段的遮罩语言模型方法用于术语集扩展

本文利用神经遮盖语言模型提出一种综合了基于模式和分布式方法的术语集扩展算法，并在语义学班级中表现出卓越的性能。

May, 2020

分布语义建模：应用本体相关方法来训练词向量空间模型的修订技术

本文提出了一种基于神经网络的分布式语义建模技术 SPT，通过自然语言文本中的术语自动提取和应用医学或应用于构建术语向量空间模型的基本实体，实现从分布式词表示向分布式术语表示的转换，从而提高传统本体论开发的准确性。

Mar, 2020

基于术语集扩展的英特尔 AI 实验室自然语言处理框架

SetExpander 是一个基于语料库的系统，可以将种子集中的词扩展为与之相同语义类别的完整词集，能被应用于自动化招聘系统和问题缺陷解决系统，使领域特定的细粒度语义类别的提取更加简便。

Aug, 2018

利用词嵌入的深度神经网络进行查询扩展

该论文介绍了一种基于词嵌入的 query expansion 方法，使用人工神经网络分类器来预测 query expansion 词汇的有用性，实验结果表明该方法显著提高了检索性能。

Nov, 2018

分布语义的向量空间用于蕴涵

本文提出了一个基于向量空间的模型，通过平均场近似，发展了逼近推理程序和蕴涵操作，用于重新解释现有的分布式语义模型（Word2Vec），以近似预测词汇蕴涵关系，通过无监督和半监督实验，在下义词检测方面取得了显著的改进。

Jul, 2016

基于多语境词嵌入的术语集扩展：一种端到端工作流程

本文介绍了 SetExpander—— 一个语料库为基础的系统，用于扩展语义类别中种子术语的集合，使用迭代式端到端工作流实现了术语集扩展，已用于解决实际应用场景，例如集成到自动化招聘系统和问题解决系统中。

Jul, 2018

基于语料库的集合扩展：通过上下文特征选择和排名集成实现

本文提出了一种基于语料库的集合扩展方法，通过选择干净的上下文特征计算实体分布相似度和基于去噪上下文特征的排序无监督集成方法，该方法在三个数据集上的实验证明是健壮的且优于之前的最新方法。

Oct, 2019

三代分布语义模型的比较评估与分析

本研究旨在对传统计数模型、预测模型与现代上下文向量模型（由 Transformer 神经语言模型生成）进行遵循语境学习的分布式语义模型（DSM）评估，结果显示在大多数上下文之外的语义任务和数据集中，静态 DSM 优于上下文化代表性，并揭示了 DSM 之间的不同之处，这些不同涉及词汇项的频率和词性，为调查分布式模型生成的语义空间提供了方法。

May, 2021

基于语料库及辅助集生成与协同扩展的集合扩展引导

本文提出了一种新的框架 Set-CoExpan，它可以自动生成辅助负集作为联系紧密的与用户所需目标集相关的负向集，通过将目标集与辅助集进行比较提取区分特征，形成多个互不相同的相互关联的集合，从而解决语义漂移问题。实验证明，通过生成辅助集，可以引导目标集的扩展过程，从而避免触及边界周围的模糊区域，同时 Set-CoExpan 可以显著优于强基线方法。

Jan, 2020