LEXpander: 将共同义词网络应用于自动词汇扩展

May, 2022

LEXpander: 将共同义词网络应用于自动词汇扩展

LEXpander: applying colexification networks to automated lexicon expansion

Anna Di Natale, David Garcia

TL;DR本文介绍一种基于 colexification 方法的词库扩展方法，名为 LEXpander，通过该方法生成的单词列表在各个测试中表现良好，可以近似于心理学和语言学专家生成的单词列表。

Abstract

Recent approaches to text analysis from social media and other corpora rely on word lists to detect topics, measure meaning, or to select relevant documents. These lists are often generated by applying computatio

text analysis lexicon expansion colexification word lists performance

发现论文，激发创造

Vocab-Expander: 基于词嵌入的领域特定词汇创建系统

我们提出了 Vocab-Expander，这是一个在线工具，能让终端用户（如技术侦察员）创建和扩展他们感兴趣的领域词汇。该系统利用基于网络文本和常识知识库 ConceptNet 的一系列先进的词嵌入技术，为已有词汇提供相关术语建议，并提供易于使用的界面，让用户快速确认或拒绝术语建议。Vocab-Expander 提供多种潜在用例，如改进技术与创新管理中的基于概念的信息检索、增强组织或跨学科项目中的沟通与协作，以及为特定课程创建词汇。

Aug, 2023

通过基于词典的适应扩展预训练模型以覆盖数千种更多语言

本文探究了利用双语词典作为文本资源，从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据，通过不同策略合成文本或标注数据，并与单语文本或平行文本相结合，以提高在三个任务上 19 种欠发达语言的性能，为千余种使用 NLP 技术的欠代表语种提供了思路。

Mar, 2022

基于术语集扩展的英特尔 AI 实验室自然语言处理框架

SetExpander 是一个基于语料库的系统，可以将种子集中的词扩展为与之相同语义类别的完整词集，能被应用于自动化招聘系统和问题缺陷解决系统，使领域特定的细粒度语义类别的提取更加简便。

Aug, 2018

利用词嵌入的深度神经网络进行查询扩展

该论文介绍了一种基于词嵌入的 query expansion 方法，使用人工神经网络分类器来预测 query expansion 词汇的有用性，实验结果表明该方法显著提高了检索性能。

Nov, 2018

基于多语言共词图的低资源语言跨语言迁移学习

本文提出利用未标注的平行语料库识别超过 2000 个概念在 1335 种语言中的共同词汇模式，并使用此模型训练高质量的多语言嵌入，从而展示共同词汇模式在多语言自然语言处理中的潜力。

May, 2023

自动英文文本扩展系统

我们提出了一个自动文本扩展系统，结合语言规则和统计方法，进行自动的自然语言生成。该系统可以从最小词汇集合生成连贯和正确的英文句子。

May, 2024

TaxoExpan: 利用位置增强的图神经网络进行自监督分类扩展

本文提出了一种名为 TaxoExpan 的自我监督框架，使用一组 <查询概念，锚定概念> 对从现有分类法中自动生成的训练数据。通过使用这种自我监督数据，TaxoExpan 学习模拟预测查询概念是否为锚定概念的直接下位词的模型，并提出了两个创新技术：（1）增强位置的图神经网络，用于编码现有分类法中锚定概念的局部结构；（2）噪声鲁棒训练目标，使学习模型不受自我监督数据标注噪声的影响。实验结果表明，TaxoExpan 对于分类法扩展具有高效性和有效性。

Jan, 2020

基于语料库及辅助集生成与协同扩展的集合扩展引导

本文提出了一种新的框架 Set-CoExpan，它可以自动生成辅助负集作为联系紧密的与用户所需目标集相关的负向集，通过将目标集与辅助集进行比较提取区分特征，形成多个互不相同的相互关联的集合，从而解决语义漂移问题。实验证明，通过生成辅助集，可以引导目标集的扩展过程，从而避免触及边界周围的模糊区域，同时 Set-CoExpan 可以显著优于强基线方法。

Jan, 2020

基于语料库的集合扩展：通过上下文特征选择和排名集成实现

本文提出了一种基于语料库的集合扩展方法，通过选择干净的上下文特征计算实体分布相似度和基于去噪上下文特征的排序无监督集成方法，该方法在三个数据集上的实验证明是健壮的且优于之前的最新方法。

Oct, 2019

基于语料库的语义词典构建方法

本研究提出了一种基于语料库的方法，可用于构建特定领域的语义词汇表，以帮助自然语言处理领域的系统，从而填补了其对手动编码各个应用程序的依赖。

Jun, 1997