大规模异构文本网络上的预测性文本嵌入

KDDAug, 2015

大规模异构文本网络上的预测性文本嵌入

PTE: Predictive Text Embedding through Large-scale Heterogeneous Text Networks

Jian Tang, Meng Qu, Qiaozhu Mei

TL;DR本文提出了一种名为预测性文本嵌入的半监督表示学习方法，它利用带标签和无标签数据来学习文本的嵌入，并将其表示为一种大规模异构文本网络，有效地降低了参数数量和效率。

Abstract

unsupervised text embedding methods, such as Skip-gram and Paragraph Vector, have been attracting increasing attention due to their simplicity, scalability, and effectiveness. However, comparing to sophisticated deep learning architectures such as →

unsupervised text embedding semi-supervised representation learning heterogeneous text network predictive text embedding convolutional neural networks

发现论文，激发创造

对比式预训练用于文本与代码嵌入

本文研究了使用对比方式的自监督无监督训练大规模文本向量化，得到的向量在文本与代码搜索中表现优异，相较于之前使用监督学习方法的实验结果，相对提升了 4% 到 23.4% 不等。

Jan, 2022

朝向具有多阶段对比学习的通用文本嵌入

我们提出了 GTE，一个用多阶段对比学习训练的通用文本嵌入模型，通过在多个数据源的各种混合数据集上进行对比学习，训练一个统一的文本嵌入模型。通过显著增加训练数据量，在无监督预训练和有监督微调阶段，取得了比现有嵌入模型更大的性能提升。此外，我们的模型在处理代码时无需额外细调每种编程语言，仅将代码视为文本就能超过类似大小的以前最佳代码检索器的性能。总之，我们的模型通过有效利用多阶段对比学习实现了令人印象深刻的结果，提供了一种强大而高效的文本嵌入模型，在各种 NLP 和代码相关任务中具有广泛的适用性。

Aug, 2023

重要信息检索以分类偏好贸易协定的非结构化数据内容

通过嵌入技术减少冗余信息并使用 BERT 进行文本分类，有效提高了长文本的分类性能，同时大大降低了计算复杂度。这一研究为自然语言处理领域的研究人员和工程师提供了有价值的参考。

Jan, 2024

文本的神经嵌入

本文提出了一种新的自然语言文本嵌入方法，从语言模型的神经元权重来生成向量，称为神经嵌入，结果表明其在语义表达方面表现良好。

Aug, 2022

融合词嵌入的短文本主题建模

本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型，从而改进对小文本数据的话题推断。结果表明，与传统主题模型相比，改进后的方法可以更有效地对短文本数据进行话题建模。

Sep, 2016

基于字符级文本嵌入的文本分割

该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示，并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征，以实现比表面字符 n-gram 更好的结果。

Sep, 2013

使用段落向量进行文档嵌入

本文针对段落向量的应用进行研究，评估其在文本相似度计算方面的性能，同时探究其向量操作在语义任务上的效果。通过对比潜在狄利克雷分布模型等其他文本建模算法，实验结果表明段落向量方法在性能上优于其他方法，并提出了改进模型提高嵌入质量的简单方法。

Jul, 2015

利用预训练语言模型生成通用文本嵌入以实现可扩展推断

研究使用共享文本编码器实现多任务推理以及使用二进制量化减少数据存储大小的方法，证明预训练的编码器在多个任务上表现的泛化性好。

Apr, 2020

利用大型语言模型改进文本嵌入

通过使用合成数据和少于 1k 个训练步骤，我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同，我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据，我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明，我们的方法在高度竞争的文本嵌入基准上具有强大的性能，而不使用任何标记数据。此外，当用合成数据和标记数据的混合进行微调时，我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。

Dec, 2023

文本分类的多任务标签嵌入

本文提出了 Multi-Task Label Embedding 模型，将文本分类中的标签转换为语义向量，从而将原始任务转化为向量匹配任务，利用任务间的语义相关性进行多任务学习，有效提升相关任务的性能。

Oct, 2017