LLM2Vec: 大型语言模型是强大的文本编码器
通过引入各种架构设计和训练过程,NV-Embed 模型显著提高了 LLM 作为多功能嵌入模型的性能,同时保持其简单性和可重现性,并取得了 69.32 的记录高分,在包括检索、重排序、分类、聚类和语义文本相似性任务在内的 56 个任务中名列第一。
May, 2024
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023
通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义,系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示,大型语言模型往往比经典模型更紧密地聚集语义相关的词,并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外,一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。
Feb, 2024
提前训练的语言模型能够通过改进序列标记任务的表现,优于基于自回归语言模型的编码器,并通过去除因果掩码在信息提取任务中取得了与前沿模型相媲美的性能。
Jan, 2024
本论文提出了一种名为 Mirror-BERT 的极为简单、快速和有效的对比学习技术,它能在 20-30 秒内将预训练的 MLMs(如 BERT 和 RoBERTa)转变为有效的通用词汇和句子编码器,而无需任何附加的数据和监督,并取得了巨大的成功。
Apr, 2021
D2LLMs-Decomposed and Distilled LLMs combine efficient bi-encoders with pooling by multihead attention and interaction emulation module, achieving nuanced understanding and pre-computability, surpassing baselines in various tasks.
Jun, 2024
该研究揭示了残差型大型语言模型在生物医学图像任务中作为编码器的意外有效性,这在传统上与语言或文本数据无关。通过利用预训练的大型语言模型中的冻结变压器块作为创新编码器层,该方法与现有方法学不同,可以直接处理视觉标记。该研究发现,这些大型语言模型能够提升生物医学图像应用的性能,包括 2D 和 3D 的视觉分类任务,作为即插即用的增强器。更有趣的是,该提出的框架在 MedMNIST-2D 和 3D 的大规模标准数据集上取得了卓越的性能,刷新了最新的技术结果。通过这项工作,我们的目标是在生物医学图像领域开拓大型语言模型的应用新途径,并丰富对其在这一专业领域的潜力的认识。
Mar, 2024
本文描述了解决 SemEval 2023 Task 2:MultiCoNER II(多语言复杂命名实体识别)问题所构建的体系结构和系统。我们评估了两种方法:传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM),并比较了这两种方法。我们探索的新想法有:1)衰减辅助损失(带剩余项)- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中;2)三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式;3)任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM,包括 GPT-3,并在最终模型中使用了多种 dropout 和其他超参数设置,该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值,并在测试数据上达到了 0.67/0.61。我们证明,虽然预训练的 LLM 本身相对传统模型带来了很大的改进,但通过上述额外特征 / 损失 / 模型工程技术的增强,我们还可以显著提高宏观 F1 分数。
Jan, 2024
多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面,并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外,还探讨了不同模型类型的独特特征,包括仅编码器模型、仅解码器模型和编码器 - 解码器模型。同时,还讨论了多语言大型语言模型的一个重要局限性,即多语言之间的相互影响问题,并探究了克服这一问题的当前尝试。
Jun, 2024