基于语义概念嵌入的文本相似度估计

Jan, 2024

基于语义概念嵌入的文本相似度估计

Estimating Text Similarity based on Semantic Concept Embeddings

Tim vor der Brück, Marc Pouly

TL;DR通过结合传统词嵌入和语义概念嵌入，基于多网语义网络形式化提出的语义概念嵌入（CE）能够提高预测目标群体的准确性。

Abstract

Due to their ease of use and high accuracy, word2vec (W2V) word embeddings enjoy great success in the semantic representation of words, sentences, and whole documents as well as for →

word2vec semantic representation semantic similarity estimation semantic concept embeddings multinet semantic network

发现论文，激发创造

从对比微调的语言模型中提取语义概念嵌入

提出通过对比学习策略来改进概念嵌入的语义表示方法，使用全新的 contextualized vectors 代替传统平均表示方法，可优化概念嵌入中的语义属性，使得使用该方法后的概念嵌入能在预测语义属性上显著突出于传统概念嵌入方法，尤其是使用 ConceptNet 的方法的效果最佳。

May, 2023

基于语义词嵌入的文本分割

本研究探讨了在文本分割算法中应用语义单词嵌入的方法，包括 C99 分割算法和灵感来自分布式单词向量表示的新算法，并通过开发一个用于讨论一类分割目标的通用框架，研究了贪婪与精确优化方法的有效性，建议了一种新的迭代改进技术来提高贪婪策略的性能，将结果与已知基准进行比较并演示了我们的内容向量分割（CVS）在 Choi 测试集上的未经训练方法的最先进性能。最后，我们将分割过程应用于从 arXiv.org 数据库中提取的学术文献的野外数据集。

Mar, 2015

一种集成方法生成高质量的词向量嵌入（2016）

本文提出了一种集成方法，通过将 GloVe 和 word2vec 的嵌入方式与语义网络 ConceptNet 和 PPDB 的结构化知识相结合，将它们的信息融合成一个具有大型多语言词汇的共同表示，并达到了许多词语相似性评估的最先进性能

Apr, 2016

AspectCSE：利用对比学习与结构化知识的基于方面的语义文本相似性句子嵌入

本文提出了 AspectCSE，一种基于对比学习的以方面为基础的句子嵌入方法，并在多个方面的信息检索任务上实现了 3.97％的平均改进。同时，作者还提出使用 Wikidata 知识图谱属性来训练多方面的句子嵌入模型，并证明这种方法优于单方面的嵌入，同时该研究还探讨了基于方面的句子嵌入空间。

Jul, 2023

理解词嵌入

我们开发了一种简单而有效的方法来学习单词意义嵌入。通过聚类相关单词的自我网络，我们的方法可以从现有的单词嵌入中引出一种意义库，并通过学习的意义向量标记上下文中的单词，从而产生了下游应用。实验表明，我们的方法的性能与最先进的无监督 WSD 系统相当。

Aug, 2017

词嵌入的语义结构和可解释性

该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构，并引入了一个新的数据集（SEMCAT），其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法，这是一种实用的替代方法，不需要人为干预。

Nov, 2017

超越词嵌入：从大规模知识库中学习实体和概念表示

本文提出了一种新颖而简单的技术，将来自不同结构的两个大型知识库中的概念知识（Wikipedia 和 Probase）整合起来，学习概念表示，并在两个任务上评估了概念嵌入模型：类比推理和概念分类，并展示了无监督环境中用于神经语义分析的参数识别的案例研究，相对于 gazetteer 和正则表达式等繁琐易出错的方法，我们的无监督方法具有更好的泛化能力。

Jan, 2018

SemEval-2017 任务 2 中的 ConceptNet: 用多语言关系知识扩展词嵌入

使用基于 ConceptNet 的知识图谱和分布式语义学，第一次在 SemEval 2017 任务 2 “多语和跨语义词相似度” 中构建高质量多语词嵌入，目前在与多种语言相关的子任务中占据第一名。

Apr, 2017

以词和句相似性重新思考评估

本文提出了 EvalRank 作为一种新的内部评估方法，它在 60 多个模型和流行数据集上进行了深入的实验，并释放了实用的评估工具包用于未来的基准测试。

Mar, 2022

语义投影：从词嵌入中恢复多个不同物体特征的人类知识

该研究探讨了一种计算模型，即词嵌入模型，通过将词表示为多维空间中的向量，从词汇共现模式中学习来自语义记忆中的常见知识，并提出了语义投影的解决方案，以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。

Feb, 2018