一段文字胜过数个令牌:LLM 的文字嵌入与关键令牌密切对齐
通过使用大型语言模型(LLMs)的文本嵌入和聚类算法,该研究调查了文本聚类方法对数据集的影响,评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示,LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色,而 BERT 在性能方面领先于其他轻量级选择。此外,我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率,暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中,需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入,扩展了传统文本聚类框架,从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。
Mar, 2024
本文总结了使用当今的语言模型(LLM)完成时间序列(TS)任务的两种策略:LLM-for-TS,设计和训练适用于 TS 数据的基础大模型;TS-for-LLM,使预训练的 LLM 能够处理 TS 数据。本文关注 TS-for-LLM 方法,旨在通过设计一种适用于 LLM 的 TS 嵌入方法来激活 LLM 对 TS 数据的处理能力。作者提出了一种名为 TEST 的方法,首先对 TS 进行分词,通过实例、特征和文本原型对齐等方式建立编码器进行嵌入,然后创建提示信息使 LLM 更加开放对嵌入的应用,并最终实现 TS 任务。实验证明,应用于 8 个具有不同结构和大小的 LLM 进行 TS 分类和预测任务,尽管结果无法显著超过针对 TS 任务定制的最先进模型,但将 LLM 视为模式机器能够赋予 LLM 处理 TS 数据的能力,而不损害其语言能力。本文旨在成为鼓励进一步研究的基础性工作。
Aug, 2023
通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义,系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示,大型语言模型往往比经典模型更紧密地聚集语义相关的词,并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外,一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。
Feb, 2024
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023
利用大型语言模型(LLMs)生成的嵌入向量,我们提出了一种基于聚类的算法来测量文本数据的分布漂移,并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标,并从 18 个月的实际部署中总结了经验教训。
Dec, 2023
通过轻量级的大型语言模型,我们提出一种简单而有效的迁移学习策略 LLMEmbed 来改善文本分类的性能,并在公开数据集上的广泛实验验证了其强大的性能,相较于基于更大型的语言模型(如 GPT-3)和复杂的提示策略,我们的方法仅使用 4% 的模型参数、1.8% 的能耗和 1.5% 的运行时间即可达到充分的准确性。
Jun, 2024
多语言大型语言模型的跨语言迁移学习是重要的,通过对输入嵌入的相似性进行解释,本研究揭示了语言模型的语言表示,在不同模型族的嵌入中存在语言编码和跨语言语义相似性的差异,这为研究预训练和模型架构对语言表示的影响以及嵌入在语言模型中的跨语言表示的应用提供了机会。
Nov, 2023
本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型,从而改进对小文本数据的话题推断。结果表明,与传统主题模型相比,改进后的方法可以更有效地对短文本数据进行话题建模。
Sep, 2016
利用大型语言模型将嵌入向量转化为可理解的叙述,解决了嵌入向量难于解释和使用的问题,增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。
Oct, 2023