德文文本嵌入聚类基准
通过使用大型语言模型(LLMs)的文本嵌入和聚类算法,该研究调查了文本聚类方法对数据集的影响,评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示,LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色,而 BERT 在性能方面领先于其他轻量级选择。此外,我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率,暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中,需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入,扩展了传统文本聚类框架,从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。
Mar, 2024
使用聚类方法基于词向量的语言模型,在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案,同时具备与文档长度变化相关性自适应的能力。
Sep, 2017
该研究通过深度学习和嵌入可视化对多语言文本分类方法进行比较研究,特别关注 FastText 和 Sentence Transformer 模型,并探索了维度对聚类的影响。研究结果显示,FastText 在二维可视化中显示出更清晰的聚类效果,取得了显著的准确性、精确率、召回率和 F1 分数,优于 Sentence Transformer 模型。该研究强调了这些技术在多语言文本分类中的有效性,并强调了使用大型多语言语料库进行嵌入训练的重要性。它为未来的研究奠定了基础,并辅助开发语言检测和分类系统。此外,研究还对多层感知机、LSTM 和卷积模型进行了比较。
Dec, 2023
本研究提出了一种跨语言的自动生成具有语义相似性的实体簇集的方法,并通过产生的异常点元素集合用于在离群值检测任务中进行单一内在评估。使用这个方法生成了一个金标准数据集名称为 WikiSem500,并评估了多个最先进的嵌入方法。结果显示这个数据集上的性能与情感分析上的性能之间存在相关性。
Nov, 2016
该研究介绍了一套新颖的双语文本嵌入模型,能够处理长度长达 8192 个标记的文本输入,支持英语和目标语言,适用于文本检索、聚类和语义文本相似性计算等自然语言处理任务。通过专注于双语模型和引入独特的多任务学习目标,研究提高了 STS 任务模型性能,在目标语言理解和跨语言评估任务方面超过现有的多语言模型能力。此外,这些双语模型更高效,需要较少的参数和内存,因为它们具有较小的词汇需求。研究还扩展了大规模文本嵌入基准 (MTEB),加入了德语和西班牙语嵌入模型的基准,旨在促进这些语言的文本嵌入技术的进一步研究和发展。
Feb, 2024
我们扩展了大规模文本嵌入基准(MTEB)以针对法语提出首个句子嵌入大规模基准,通过与 46 个嵌入模型的大规模比较和全面的统计测试,我们发现大型多语言模型在句子相似度上进行预训练的效果尤为出色。
May, 2024
本文介绍了 Massive Text Embedding Benchmark 评估了 33 种模型在 8 种嵌入任务和 112 种语言上的表现。结果发现,没有一种嵌入方法能够完全在所有任务上占优势,因此需要进一步研究和发展通用的文本嵌入方法。
Oct, 2022
本技术报告介绍了开源多语言 E5 文本嵌入模型的训练方法和评估结果,该模型于 2023 年中期发布。提供了三种不同大小的嵌入模型(小 / 基础 / 大),在推理效率和嵌入质量之间取得平衡。训练过程遵循英文 E5 模型的方法,包括对 10 亿个多语言文本对进行对比预训练,然后在一系列标记数据集上进行微调。此外,我们引入了一种新的指令调整嵌入模型,其性能与类似规模的最先进英文模型相当。有关模型发布的信息可以在此 https 网址中找到。
Feb, 2024
本研究探讨了在电商平台的评论中使用聚类算法对评论星级进行重新标注的任务,使用了 BERT 和 Word2Vec 两种不同的文本嵌入来表示文本,并测量了各种聚类算法(包括 KMeans,单连系群聚类和基于密度的算法)的性能,结果表明嵌入类型对算法性能有很大的影响。
May, 2023
提出了一种基于 Topic Detection and Tracking 的新闻处理系统,采用 “replaying” 策略将单语局部主题链接成故事,同时使用 SBERT 进行交叉语言处理,获得了在多个语言数据集上的最新成果。
Apr, 2020