利用预训练语言模型生成通用文本嵌入以实现可扩展推断
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023
本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略,并将其应用于神经机器翻译和抽象摘要。实验证明,加入编码器网络的预训练表示是最有效的,可以在减慢推理速度仅 14%的情况下获得高达 5.3 BLEU 的增益,并且即使有数百万个句对可用时,仍然可以观察到改进。最后,在 CNN / DailyMail 的完整文本版本上,我们达到了最新的研究成果。
Mar, 2019
该论文提出了一种基于前缀的方法来学习固定文本表示,该方法可以通过多次前向传递来更新文本表示。实验结果表明,该方法在更新文本表示时可以比多任务训练更省计算资源。
May, 2023
大语言模型(LLM)革命中,嵌入是各种系统的关键组成部分。在本文中,我们迈出了迈向构建强大统一的嵌入模型的第一步,证明了多种语言(自然语言和编程语言)的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估,结果表明这是一条有希望的道路,可以应用于不同任务和语言。
Oct, 2023
本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型,并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中,以提高检索效率,与最先进的语义检索、翻译检索和检索问题回答模型相竞争,并在某些情况下超越了英文单语句子嵌入模型的表现水平。
Jul, 2019
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019
本文研究如何在计算优化的情况下对文本嵌入模型进行对比训练,通过使用一系列预训练的只有解码器的语言模型来产生最佳的模型配置、数据量和微调方法,从而适应不同的计算预算级别。我们通过广泛的实验得到了这些结论,可以帮助从业者为他们的嵌入模型做出明智的设计选择。具体而言,我们的发现表明,完全微调和低秩适应微调分别在较低和较高的计算预算下产生最佳模型。
Jun, 2024
本文提出一种编码方法,用于从高维词嵌入中提取特定任务的知识,旨在解决在各种资源受限系统中高性能的轻量级神经网络的需求问题。实验结果表明,从笨重的嵌入中提取知识优于使用小型嵌入直接训练神经网络,能保证高准确性的同时大幅减少模型复杂度。
Jun, 2015
本文提出了一个新颖的方法,使用少量人为监督来挖掘具有语义相关性的新鲜文档及其主题标签,并设计了一个多任务模型 - NewsEmbed,交替使用对比学习和多标签分类来推导通用文档编码器,在多个自然语言理解任务中实现了出色的性能表现。
Jun, 2021
本文提出了一种轻量级的卷积神经网络结构,可用于创建句子的定长向量嵌入表示,可应用于构建自然语言处理系统,包括对话代理,经过优化的卷积神经网络架构可显著缩短学习时间,减少参数数量,提高自编码准确率,并通过 SentEval 基准套件评估所建模型所创建的表示,并表明这可以作为流行的词袋表示形式的更好的但资源要求较低的选择。
Aug, 2018