大规模异构文本网络上的预测性文本嵌入
本文研究了使用对比方式的自监督无监督训练大规模文本向量化,得到的向量在文本与代码搜索中表现优异,相较于之前使用监督学习方法的实验结果,相对提升了 4% 到 23.4% 不等。
Jan, 2022
我们提出了 GTE,一个用多阶段对比学习训练的通用文本嵌入模型,通过在多个数据源的各种混合数据集上进行对比学习,训练一个统一的文本嵌入模型。通过显著增加训练数据量,在无监督预训练和有监督微调阶段,取得了比现有嵌入模型更大的性能提升。此外,我们的模型在处理代码时无需额外细调每种编程语言,仅将代码视为文本就能超过类似大小的以前最佳代码检索器的性能。总之,我们的模型通过有效利用多阶段对比学习实现了令人印象深刻的结果,提供了一种强大而高效的文本嵌入模型,在各种 NLP 和代码相关任务中具有广泛的适用性。
Aug, 2023
通过嵌入技术减少冗余信息并使用 BERT 进行文本分类,有效提高了长文本的分类性能,同时大大降低了计算复杂度。这一研究为自然语言处理领域的研究人员和工程师提供了有价值的参考。
Jan, 2024
本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型,从而改进对小文本数据的话题推断。结果表明,与传统主题模型相比,改进后的方法可以更有效地对短文本数据进行话题建模。
Sep, 2016
该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示,并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征,以实现比表面字符 n-gram 更好的结果。
Sep, 2013
本文针对段落向量的应用进行研究,评估其在文本相似度计算方面的性能,同时探究其向量操作在语义任务上的效果。通过对比潜在狄利克雷分布模型等其他文本建模算法,实验结果表明段落向量方法在性能上优于其他方法,并提出了改进模型提高嵌入质量的简单方法。
Jul, 2015
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023
本文提出了 Multi-Task Label Embedding 模型,将文本分类中的标签转换为语义向量,从而将原始任务转化为向量匹配任务,利用任务间的语义相关性进行多任务学习,有效提升相关任务的性能。
Oct, 2017