通过 LLMs 潜空间增强上下文分类

Apr, 2024

Contextual Categorization Enhancement through LLMs Latent-Space

Zineddine Bettouche, Anas Safi, Andreas Fischer

TL;DR使用转换器模型从维基百科数据集及其相关类别中提取语义信息，通过不同方法对类别的语义特征进行评估和增强，以提高数据组织的语义准确性。

Abstract

Managing the semantic quality of the categorization in large textual datasets, such as Wikipedia, presents significant challenges in terms of complexity and cost. In this paper, we propose leveraging

semantic quality categorization transformer models convex hull hierarchical navigable small worlds

发现论文，激发创造

自动主题生成的分层潜在语义映射

本文提出一种新的名为 Hierarchical Latent Semantic Mapping (HLSM) 的主题生成方法，它可以自动从语料库中生成主题，并使用单词之间的关联和层次生成主题网络。实验表明，相比于现有的一些最先进的方法，HLSM 在几个文档集合上表现良好。

Nov, 2015

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

关于语言模型潜空间的语义：一种基于词汇定义的方法

我们介绍了一种名为 “基于词汇定义的语义” 的开创性方法，它在语言模型（LMs）的潜空间中建立了一个固定的参考框架，确保了在 LM 词汇基础上的绝对语义分析。通过广泛的实验，我们的方法超越了检索增强生成和参数有效微调的最先进方法，展示了它的功效和广泛适用性。

Jan, 2024

探究 LLMs 对语言类别的联合编码

大型语言模型研究中发现的语言层次结构及其对语法任务的编码方式提供可解释性证据。

Oct, 2023

SLHCat: 基于语义、词汇和层次特征映射维基百科分类和列表到 DBpedia

通过本研究，我们提出了一种基于本体对齐的方法 SLHCat，利用知识图谱结构和本体类名的词汇和语义特征，自动发现自信的映射，并使用远程监督方式微调预训练语言模型 BERT，以捕捉类名的语义和句法属性。在基准数据集上进行评估，SLHCat 模型在大规模本体映射中较基准模型准确率提高了 25％的显著优势，为实现实际的解决方案提供了可能。

Sep, 2023

不先告知就提问：探究语境表示中的潜在本体论

本研究介绍了一种名为潜在子类学习的方法，通过这种方法可以从输入表示中提取出诸如人的概念等熟悉的类别，以及对于核心参数的细粒度语义角色的首选，这些结果为预训练编码器中的新兴结构提供了独特的新证据。

Apr, 2020

上下文化词表示的低维线性几何

本文研究了 ELMO 和 BERT 中的单词表示的线性几何，发现低维子空间编码了各种语言特征，包括结构化依赖关系，子空间之间存在着层次关系，可以用于对 BERT 的输出分布进行细粒度的操作。

May, 2021

理解语境化表示的潜在拓扑感知

通过使用结构化的变分自编码器进行完全无监督的学习，得出语境化嵌入的表征空间存在潜在状态的网络，这些状态不仅作为表示流形的拓扑结构的锚点，还揭示了对句子进行编码的内部机制。同时，表明句子作为潜在网络上的遍历，状态转换链编码了句法模板，状态 - 词发射填充了内容。

Jun, 2022

用户 - LLM: 基于用户嵌入的高效 LLM 语境化

利用用户嵌入来上下文化大型语言模型，实现显著性能提升。

Feb, 2024

深度 NLP 模型中潜在概念的拓展发现

该研究比较了三种聚类算法：凝聚层次聚类、领导算法和 K-Means 聚类，发现 K-Means 具有潜力在单词和短语层面上对编码概念进行大规模发现。

Aug, 2023