语义文本压缩分类

MMSep, 2023

Semantic Text Compression for Classification

Emrecan Kutay, Aylin Yener

TL;DR我们研究了文本的语义压缩，其中文本中包含的含义被传达给源编码器，例如用于分类。我们提出了一种利用句子嵌入和语义失真度量来保持含义的语义量化和压缩方法。我们的结果表明，与语义不可知基线相比，所提出的语义方法在所需消息表示的比特数量方面节省大量资源，仅以非常适度的准确性损失为代价。我们比较了所提出方法的结果，并观察到语义量化所实现的资源节省可以通过语义聚类进一步增强。重要的是，我们观察到所提出方法的普适性，其在许多基准文本分类数据集上都获得了出色的结果，涵盖了多样化的环境。

Abstract

We study semantic compression for text where meanings contained in the text are conveyed to a source decoder, e.g., for classification. Th

semantic compression text semantic quantization semantic clustering text classification

发现论文，激发创造

用掩码实现的语义数据压缩方法 —— 填字游戏

该研究侧重于英文文本，并利用其语义方面进一步改进压缩效率，主要思想源于填字游戏，即通过某些关键字母提供，即使隐藏的单词具有语义学特征，也可以被精确地重构，并提出了一种类似游戏的基于掩码的策略，编码器评估每个单词的语义重要性，然后掩盖较小的单词，目标解码器则通过使用 Transformer 中的语义上下文来恢复被掩盖的单词。实验证明，所提出的语义方法比传统方法如霍夫曼码和 UTF-8 代码可以更好地保留目标文本的含义，同时实现更高的压缩效率。

Apr, 2023

大型语言模型的语义压缩

本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价，并提出了二元评价指标：是否精确重构 (ERE) 和语义重构有效性 (SRE)，结果表明 GPT-4 可能有效地压缩和重构文本，并保留原始文本的语义要素。

Apr, 2023

FastText.zip：压缩文本分类模型

利用乘积量化的方法实现紧凑型文本分类模型，适应存储限制的环境，并通过实验获得更好地平衡准确性和内存占用的性能表现。

Dec, 2016

极端学习图像多模态深度网络压缩

本文提出了一种文字引导图像压缩的多模态机器学习方法，通过使用文本的语义信息来引导图像压缩，以实现更好的压缩性能，包括采用图像 - 文本注意力模块和改进的多模态语义一致性损失函数。实验证明，该方法能够在极低比特率下获得较好的视觉效果，并且即使与最先进的技术相比，其性能也可以相媲美或超越。

Apr, 2023

深度组合编码学习压缩词向量

该论文提出了一种使用少量基向量构建嵌入式编码、使用 Gumbel-softmax 技巧直接学习离散码表的自然语言处理模型压缩方法，并在情感分析和机器翻译任务中实现了 98% 的压缩率，从而达到在不影响性能的前提下减少内存占用的目的，该方法不需要改变网络结构且具有语言无关性。

Nov, 2017

基于低秩矩阵分解的文本分类在线嵌入压缩

本研究提出一种深度学习模型的压缩方法，利用低秩矩阵因式分解来压缩自然语言处理中的字词嵌入层，经过实验证明可以在 90% 的压缩比下保持精度不受影响，并且在句子分类任务上表现优于其他方法，同时还引入了一种新的学习率调度算法 CALR，其在句子分类基准测试中表现出优越性。

Nov, 2018

一种基于句子压缩的框架用于查询焦点的多文档摘要

本文提出了一个基于句子压缩技术的任务框架，通过基于解析树的一系列学习模型，设计一种创新的 Beam Search 解码器来高效地找到高概率压缩结果，将语言学动机和查询相关性融入压缩过程中，并在多项指标上显著优于最先进的系统，包括在 DUC 2006 和 2007 摘要任务中分别获得 ROUGE-2 指标上 8.0% 和 5.4% 的改进。

Jun, 2016

利用 WordNet 的语义知识提高神经词义消歧中的语义词汇压缩

提出两种不同的方法来压缩 Princeton WordNet 的词义词汇，以及基于预训练的 BERT 词向量建立的 WSD 系统，在不需要额外训练数据的情况下大幅减小了神经 WSD 模型的大小，并在所有 WSD 评估任务上显著优于现有技术水平。

May, 2019

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

模仿人类过程：通过潜在语义聚类进行文本表示的分类

通过聚类单词并组合成文本向量的新文本表示方案，在 5 个分类基准测试中得到了有效的评估结果，并通过可视化分析验证了其有效性。

Jun, 2019