通过基于球形生成模型设计的 Riemannian 优化算法,在球形空间中实现无监督文本嵌入并在各种文本嵌入任务中达到了最新成果,包括词相似性和文档聚类。
Nov, 2019
本文提出使用 von Mises-Fisher 分布来建模单元球上的单词密度,以构建主题模型,并基于随机变分推理提出了一种高效的推断算法,实现了自然利用词嵌入的语义结构,同时能够灵活地发现主题数量。该方法在两个不同的文本语料库中拥有更好的主题连贯性并提供有效推理。
Apr, 2016
该研究提出了一种名为 EMAP 的新技术,通过将句子投射到一个固定维度的流形上,以保留原始空间中的局部邻域来无监督地生成句子嵌入,可以用于文本分类,实验证明该方法性能优于其他最先进方法。
Feb, 2021
本文提出了一种基于自注意力机制的句子嵌入模型,通过使用二维矩阵表示嵌入,并让每行矩阵分别关注句子中不同的部分,提高了可解释性。并在作者分析、情感分类和文本蕴含等三个任务中进行了模型评估,在所有任务中与其它句子嵌入方法相比表现出了显著的性能提升。
Mar, 2017
介绍了一种适用于高级自然语言处理的句子向量编码框架,该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要,使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。
Sep, 2018
本文介绍了一种基于 Grassmannian 的新方法,旨在通过建模单词集合所围成的子空间来捕获连续词向量表示中的类比关系,该方法利用测地核的修改余弦距离模型捕获跨单词类别的关系特定距离,实验结果表明与以前的方法相比,本方法在类比任务上表现显著改善。
Jul, 2015
分析语义变化的模式在长篇实际文本(如书籍或记录)中是有趣的,从文体、认知和语言的角度来看。这项研究也对应用领域,如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同,我们的方法提供了对方法在现实情境的评估。我们发现,大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式,但也存在有趣的差异。
Aug, 2023
本文针对段落向量的应用进行研究,评估其在文本相似度计算方面的性能,同时探究其向量操作在语义任务上的效果。通过对比潜在狄利克雷分布模型等其他文本建模算法,实验结果表明段落向量方法在性能上优于其他方法,并提出了改进模型提高嵌入质量的简单方法。
本文讨论了利用基于 aspect 的文本相似性测度进行科学论文推荐的问题,提出了将单一常规嵌入表示文档改为多个具有专业性的嵌入,并在 aspect 特异的嵌入空间中对其进行相似性度量的方案,有效地解决了现有方案中文档连贯性差的问题,并通过与现有方案的比较表明其优越性。
Mar, 2022
提出一种基于 Gram-Schmidt Process 的正交基的 non-parameterized 方法,用于将预训练的 word embeddings 组合成句子表示,此方法在 11 个下游 NLP 任务中表现优越。