本文提出了一种无监督建模方法,通过引入新的相似度度量和矩阵嵌入的优化问题,可以更加灵活地表示文本嵌入,并在文档分类、文档聚类和语义文本相似性基准测试等方面得到改进的结果。
Nov, 2022
使用预训练语言模型(PLMs)生成的句子嵌入引起了自然语言处理界的广泛关注,因为它们在多种下游应用中以优越的性能表示文本。然而,当在内存或计算受限设备中表示大量句子时,由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案,我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明,如主成分分析(PCA)等简单方法可以将句子嵌入的维度降低近 50%,而不会在多个下游任务中造成显著性能损失。令人惊讶的是,在某些任务中,进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。
Mar, 2024
本文介绍了一种用于流形对齐的邻居嵌入框架,并演示了使用经过流形对齐的均匀流形逼近和投影算法学习对齐流形的有效性,该算法可以学习到与整个数据集嵌入可视上相竞争的对齐流形。
May, 2022
本文提出了一种名为 Word Mover's Embedding (WME) 的崭新方法,用于建立无监督文本分类的文档嵌入,同时比较了此方法与当前最佳方法在 9 个基准文本分类数据集和 22 个文本相似性任务上表现,结果均表明 WME 能够达到或超越当前最佳方法,并在短文本问题上获得更高的准确性。
Oct, 2018
提出一种新的文本编码方法,使用多模编码来表示文本序列的不同语义因素,并从输入文本序列中直接预测聚类中心来改善无监督句子相似性和提取式摘要。
Mar, 2021
通过基于球形生成模型设计的 Riemannian 优化算法,在球形空间中实现无监督文本嵌入并在各种文本嵌入任务中达到了最新成果,包括词相似性和文档聚类。
Nov, 2019
提出了一种基于流形的嵌入原则(ManifoldE)来解决知识图谱嵌入方法中面临的代数系统不适定和几何形式过于严格的问题,该方法显著提高了精确预测任务的性能并保持高效。
Dec, 2015
UMAP 是一种基于黎曼几何和代数拓扑的流形学习技术,可以作为机器学习中通用的降维算法,具有与 t-SNE 相当的可视化质量和更好的整体结构保留能力,并且没有关于嵌入维度的计算限制。
Feb, 2018
介绍了一种适用于高级自然语言处理的句子向量编码框架,该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要,使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。
Sep, 2018
本文介绍一种基于词嵌入组合方法,该方法旨在通过满足新向量与其组成部分的向量表示之间的距离一致且最小化来实现给定一组词的公平嵌入表示。该嵌入组合方法可适用于静态和上下文相关的词表示,适用于创建句子的表示,并学习不一定按序组织的词组的表示。我们理论上表征了这种表示存在的条件并推导了解决方案。我们在数据增强和句子分类任务中评估了该方法,研究了嵌入和组合方法的多种设计选择。我们展示了我们的方法在解决用于捕捉句子简单语言特征的探测任务方面的卓越效果。
Jun, 2024