对比式预训练用于文本与代码嵌入
本文提出了一种名为预测性文本嵌入的半监督表示学习方法,它利用带标签和无标签数据来学习文本的嵌入,并将其表示为一种大规模异构文本网络,有效地降低了参数数量和效率。
Aug, 2015
本文介绍 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations,是一种无监督的学习通用语句嵌入的方法,其优于仅仅使用大规模数据集。该方法扩展了基于 Transformer 的语言模型的预训练,可以在大量的未标注培训数据下达到可监管培训的质量水平,这个解决方案可以应用于没有标注数据的语言和领域。该研究的代码和预训练模型是公开的,可以轻松地适应新的领域或用于嵌入以前不见过的文本。
Jun, 2020
我们提出了 GTE,一个用多阶段对比学习训练的通用文本嵌入模型,通过在多个数据源的各种混合数据集上进行对比学习,训练一个统一的文本嵌入模型。通过显著增加训练数据量,在无监督预训练和有监督微调阶段,取得了比现有嵌入模型更大的性能提升。此外,我们的模型在处理代码时无需额外细调每种编程语言,仅将代码视为文本就能超过类似大小的以前最佳代码检索器的性能。总之,我们的模型通过有效利用多阶段对比学习实现了令人印象深刻的结果,提供了一种强大而高效的文本嵌入模型,在各种 NLP 和代码相关任务中具有广泛的适用性。
Aug, 2023
本文系统地评估了深度神经网络、代码搜索、嵌入、监督技术和网络复杂度的设计选择,结果显示添加监督到现有的无监督技术可以提高性能,对于代码搜索,简单的网络可以比基于序列的复杂网络更有效,使用文档字符串进行监督的效果存在一定差距。
May, 2019
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019
本文介绍了一种新颖的源代码嵌入技术,精心设计了一个基于 Python 的大规模数据集和一个开源的基准测试套件,旨在提高源代码的理解和分类准确度。实验结果表明,该方法与 Word2Vec、BiLSTM、Transformer 等现有方法相比,在减少培训时间和标注数据的情况下可以获得更高的准确度。
Dec, 2019
本文提出了 E5 模型,通过对弱监督的大规模文本对数据集(CCPairs)的对比训练,得到一种最先进的文本嵌入模型,可用于检索、聚类和分类等任务,表现出色并具有迁移性。在 BEIR 和 MTEB 数据集上进行广泛评估,E5 在零样本和微调设置下均表现出良好的性能,是首个在 BEIR 检索数据集上优于强基线的模型,同时也击败了具有 40 倍参数的现有嵌入模型在 MTEB 基准测试中的表现。
Dec, 2022
提出通过对比学习策略来改进概念嵌入的语义表示方法,使用全新的 contextualized vectors 代替传统平均表示方法,可优化概念嵌入中的语义属性,使得使用该方法后的概念嵌入能在预测语义属性上显著突出于传统概念嵌入方法,尤其是使用 ConceptNet 的方法的效果最佳。
May, 2023
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023
通过最大化同一文本最小扰动嵌入之间的对齐,以及在更广泛的语料库中鼓励嵌入的均匀分布,基于对比学习的各种方法已被提出来从未标记的数据中学习文本表示。不同的是,我们提出最大化文本和其短语成分组成之间的对齐,考虑了此目标的多种实现方法,并详细阐述了每种情况下对表示的影响。语义文本相似性任务上的实验结果显示,与最先进的方法相当的基线改进。此外,本工作是第一个这样做而不需要额外网络参数或辅助训练目标的工作。
Jul, 2023