我们提出了 Vocab-Expander,这是一个在线工具,能让终端用户(如技术侦察员)创建和扩展他们感兴趣的领域词汇。该系统利用基于网络文本和常识知识库 ConceptNet 的一系列先进的词嵌入技术,为已有词汇提供相关术语建议,并提供易于使用的界面,让用户快速确认或拒绝术语建议。Vocab-Expander 提供多种潜在用例,如改进技术与创新管理中的基于概念的信息检索、增强组织或跨学科项目中的沟通与协作,以及为特定课程创建词汇。
Aug, 2023
本文探究了利用双语词典作为文本资源,从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据,通过不同策略合成文本或标注数据,并与单语文本或平行文本相结合,以提高在三个任务上 19 种欠发达语言的性能,为千余种使用 NLP 技术的欠代表语种提供了思路。
Mar, 2022
SetExpander 是一个基于语料库的系统,可以将种子集中的词扩展为与之相同语义类别的完整词集,能被应用于自动化招聘系统和问题缺陷解决系统,使领域特定的细粒度语义类别的提取更加简便。
Aug, 2018
该论文介绍了一种基于词嵌入的 query expansion 方法,使用人工神经网络分类器来预测 query expansion 词汇的有用性,实验结果表明该方法显著提高了检索性能。
Nov, 2018
本文提出利用未标注的平行语料库识别超过 2000 个概念在 1335 种语言中的共同词汇模式,并使用此模型训练高质量的多语言嵌入,从而展示共同词汇模式在多语言自然语言处理中的潜力。
May, 2023
我们提出了一个自动文本扩展系统,结合语言规则和统计方法,进行自动的自然语言生成。该系统可以从最小词汇集合生成连贯和正确的英文句子。
May, 2024
本文提出了一种名为 TaxoExpan 的自我监督框架,使用一组 <查询概念,锚定概念> 对从现有分类法中自动生成的训练数据。通过使用这种自我监督数据,TaxoExpan 学习模拟预测查询概念是否为锚定概念的直接下位词的模型,并提出了两个创新技术:(1)增强位置的图神经网络,用于编码现有分类法中锚定概念的局部结构;(2)噪声鲁棒训练目标,使学习模型不受自我监督数据标注噪声的影响。实验结果表明,TaxoExpan 对于分类法扩展具有高效性和有效性。
Jan, 2020
本文提出了一种新的框架 Set-CoExpan,它可以自动生成辅助负集作为联系紧密的与用户所需目标集相关的负向集,通过将目标集与辅助集进行比较提取区分特征,形成多个互不相同的相互关联的集合,从而解决语义漂移问题。实验证明,通过生成辅助集,可以引导目标集的扩展过程,从而避免触及边界周围的模糊区域,同时 Set-CoExpan 可以显著优于强基线方法。
本文提出了一种基于语料库的集合扩展方法,通过选择干净的上下文特征计算实体分布相似度和基于去噪上下文特征的排序无监督集成方法,该方法在三个数据集上的实验证明是健壮的且优于之前的最新方法。
Oct, 2019
本研究提出了一种基于语料库的方法,可用于构建特定领域的语义词汇表,以帮助自然语言处理领域的系统,从而填补了其对手动编码各个应用程序的依赖。
Jun, 1997