一段文字胜过数个令牌：LLM 的文字嵌入与关键令牌密切对齐

Jun, 2024

一段文字胜过数个令牌：LLM 的文字嵌入与关键令牌密切对齐

A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens

Zhijie Nie, Richong Zhang, Zhanyu Wu

TL;DR通过分析长序列模型的嵌入数据，我们发现其文本嵌入与关键标记是可以对齐的，并进一步通过调整首个主要成分，实现文本嵌入与关键标记的对齐。这一发现拥有广泛应用潜力，可用于稀疏检索方法的改进和模糊概念的理解。

Abstract

text embeddings from large language models (LLMs) have achieved excellent results in tasks such as information retrieval, semantic textual similarity, etc. In this work, we show an interesting finding: when feedi

text embeddings language models embedding llms key tokens alignment

发现论文，激发创造

使用 LLM 嵌入进行文本聚类

通过使用大型语言模型（LLMs）的文本嵌入和聚类算法，该研究调查了文本聚类方法对数据集的影响，评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示，LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色，而 BERT 在性能方面领先于其他轻量级选择。此外，我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率，暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中，需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入，扩展了传统文本聚类框架，从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。

Mar, 2024

通过基于大型语言模型的文本补充和重写增强嵌入性能

利用大型语言模型丰富和重写输入文本，改善嵌入模型的性能，并在特定领域取得显著改进。

Apr, 2024

测试：文本原型对齐嵌入以激活 LLM 对时间序列的能力

本文总结了使用当今的语言模型（LLM）完成时间序列（TS）任务的两种策略：LLM-for-TS，设计和训练适用于 TS 数据的基础大模型；TS-for-LLM，使预训练的 LLM 能够处理 TS 数据。本文关注 TS-for-LLM 方法，旨在通过设计一种适用于 LLM 的 TS 嵌入方法来激活 LLM 对 TS 数据的处理能力。作者提出了一种名为 TEST 的方法，首先对 TS 进行分词，通过实例、特征和文本原型对齐等方式建立编码器进行嵌入，然后创建提示信息使 LLM 更加开放对嵌入的应用，并最终实现 TS 任务。实验证明，应用于 8 个具有不同结构和大小的 LLM 进行 TS 分类和预测任务，尽管结果无法显著超过针对 TS 任务定制的最先进模型，但将 LLM 视为模式机器能够赋予 LLM 处理 TS 数据的能力，而不损害其语言能力。本文旨在成为鼓励进一步研究的基础性工作。

Aug, 2023

词嵌入再探讨：LLMs 是否提供新的东西？

通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义，系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示，大型语言模型往往比经典模型更紧密地聚集语义相关的词，并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外，一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。

Feb, 2024

利用大型语言模型改进文本嵌入

通过使用合成数据和少于 1k 个训练步骤，我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同，我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据，我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明，我们的方法在高度竞争的文本嵌入基准上具有强大的性能，而不使用任何标记数据。此外，当用合成数据和标记数据的混合进行微调时，我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。

Dec, 2023

基于语言模型的嵌入方式测量文本的分布变化优势

利用大型语言模型（LLMs）生成的嵌入向量，我们提出了一种基于聚类的算法来测量文本数据的分布漂移，并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标，并从 18 个月的实际部署中总结了经验教训。

Dec, 2023

LLMEmbed: 文本分类中轻量级 LLM 的真实功能的再思考

通过轻量级的大型语言模型，我们提出一种简单而有效的迁移学习策略 LLMEmbed 来改善文本分类的性能，并在公开数据集上的广泛实验验证了其强大的性能，相较于基于更大型的语言模型（如 GPT-3）和复杂的提示策略，我们的方法仅使用 4% 的模型参数、1.8% 的能耗和 1.5% 的运行时间即可达到充分的准确性。

Jun, 2024

超多语言 LLMs：令牌嵌入的跨语言可解释性

多语言大型语言模型的跨语言迁移学习是重要的，通过对输入嵌入的相似性进行解释，本研究揭示了语言模型的语言表示，在不同模型族的嵌入中存在语言编码和跨语言语义相似性的差异，这为研究预训练和模型架构对语言表示的影响以及嵌入在语言模型中的跨语言表示的应用提供了机会。

Nov, 2023

融合词嵌入的短文本主题建模

本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型，从而改进对小文本数据的话题推断。结果表明，与传统主题模型相比，改进后的方法可以更有效地对短文本数据进行话题建模。

Sep, 2016

利用大型语言模型揭秘嵌入空间

利用大型语言模型将嵌入向量转化为可理解的叙述，解决了嵌入向量难于解释和使用的问题，增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。

Oct, 2023