广义球面文本嵌入

Nov, 2022

Generalised Spherical Text Embedding

Souvik Banerjee, Bamdev Mishra, Pratik Jawanpuria, Manish Shrivastava

TL;DR本文提出了一种无监督建模方法，通过引入新的相似度度量和矩阵嵌入的优化问题，可以更加灵活地表示文本嵌入，并在文档分类、文档聚类和语义文本相似性基准测试等方面得到改进的结果。

Abstract

This paper aims to provide an unsupervised modelling approach that allows for a more flexible representation of text embeddings. It jointly encodes the words and the paragraphs as individual matrices of arbitrary

unsupervised modelling text embeddings matrix embeddings manifold optimization semantic textual similarity

发现论文，激发创造

球面文本嵌入

通过基于球形生成模型设计的 Riemannian 优化算法，在球形空间中实现无监督文本嵌入并在各种文本嵌入任务中达到了最新成果，包括词相似性和文档聚类。

Nov, 2019

使用词嵌入的非参数球形主题建模

本文提出使用 von Mises-Fisher 分布来建模单元球上的单词密度，以构建主题模型，并基于随机变分推理提出了一种高效的推断算法，实现了自然利用词嵌入的语义结构，同时能够灵活地发现主题数量。该方法在两个不同的文本语料库中拥有更好的主题连贯性并提供有效推理。

Apr, 2016

通过流形逼近和投影实现的无监督句子嵌入

该研究提出了一种名为 EMAP 的新技术，通过将句子投射到一个固定维度的流形上，以保留原始空间中的局部邻域来无监督地生成句子嵌入，可以用于文本分类，实验证明该方法性能优于其他最先进方法。

Feb, 2021

一种结构化的自注意句子嵌入

本文提出了一种基于自注意力机制的句子嵌入模型，通过使用二维矩阵表示嵌入，并让每行矩阵分别关注句子中不同的部分，提高了可解释性。并在作者分析、情感分类和文本蕴含等三个任务中进行了模型评估，在所有任务中与其它句子嵌入方法相比表现出了显著的性能提升。

Mar, 2017

用于改写和文本摘要的语义句子嵌入

介绍了一种适用于高级自然语言处理的句子向量编码框架，该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要，使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。

Sep, 2018

利用矩阵流形推理单词嵌入中的语言规律

本文介绍了一种基于 Grassmannian 的新方法，旨在通过建模单词集合所围成的子空间来捕获连续词向量表示中的类比关系，该方法利用测地核的修改余弦距离模型捕获跨单词类别的关系特定距离，实验结果表明与以前的方法相比，本方法在类比任务上表现显著改善。

Jul, 2015

评估语义变化的句子嵌入模型的比较研究

分析语义变化的模式在长篇实际文本（如书籍或记录）中是有趣的，从文体、认知和语言的角度来看。这项研究也对应用领域，如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同，我们的方法提供了对方法在现实情境的评估。我们发现，大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式，但也存在有趣的差异。

Aug, 2023

使用段落向量进行文档嵌入

本文针对段落向量的应用进行研究，评估其在文本相似度计算方面的性能，同时探究其向量操作在语义任务上的效果。通过对比潜在狄利克雷分布模型等其他文本建模算法，实验结果表明段落向量方法在性能上优于其他方法，并提出了改进模型提高嵌入质量的简单方法。

Jul, 2015

用于基于方面相似性的研究论文的专业文档嵌入

本文讨论了利用基于 aspect 的文本相似性测度进行科学论文推荐的问题，提出了将单一常规嵌入表示文档改为多个具有专业性的嵌入，并在 aspect 特异的嵌入空间中对其进行相似性度量的方案，有效地解决了现有方案中文档连贯性差的问题，并通过与现有方案的比较表明其优越性。

Mar, 2022

无需参数的正交基句子嵌入

提出一种基于 Gram-Schmidt Process 的正交基的 non-parameterized 方法，用于将预训练的 word embeddings 组合成句子表示，此方法在 11 个下游 NLP 任务中表现优越。

Sep, 2018