基于词的文本压缩

Apr, 2008

Word-Based Text Compression

Jan Platos, Jiri Dvorsky

TL;DR该论文描述了基于 LZ77 算法的一种基于词的压缩变体，包括滑动窗口实现和输出编码的各种方法。同时，还包括了一个实验性应用程序的实现，测试其效率并寻找最佳组合，以实现最佳压缩比的目标。最后，作者对该实现应用程序与其他基于词的压缩程序以及其他常用压缩程序进行了比较。

Abstract

Today there are many universal compression algorithms, but in most cases is for specific data better using specific algorithm - JPEG for images, MPEG for movies, etc. For textual documents there are special methods based on PPM algorithm or methods with non-character access, e.g. word-based c

word-based compression lz77 efficiency compression ratio comparison

发现论文，激发创造

LLMZip：使用大语言模型的无损文本压缩

使用大型语言模型 LLaMA-7B，我们给出了一组英文熵的渐进上界估计，并基于该估计提出了一种结合大型语言模型和无损压缩方案的英文文本无损压缩算法，初步结果显示出优于 BSC，ZPAQ 和 paq8h 等现有文本压缩方案的性能。

Jun, 2023

轻量级概念词典学习在文本分类中的应用

我们提出了一种新颖的轻量级监督字典学习框架，用于基于数据压缩和表示的文本分类。该算法通过 LZW 算法从文本数据集构建字典，优化字典元素并考虑标签数据，生成区分性数值表示，以便训练 SVM 和神经网络等简单分类器。我们通过信息瓶颈原理进行信息理论性能评估，并引入信息平面区域排名为新的度量指标。在六个基准文本数据集上的测试中，我们的算法与顶级模型表现接近，尤其在有限词汇环境下，使用显著少的参数。然而，在多样词汇数据集上表现不佳，可能是由于 LZW 算法在低重复数据上的限制。这个对比突出了它在不同数据集类型上的效率和局限性。

Apr, 2024

在神经压缩文本上训练 LLMs

本文探讨了在高度压缩的文本上训练大型语言模型（LLMs）的想法。通过提出等信息窗口这一新的压缩技术，我们展示了在神经压缩文本上有效学习的方法，该方法在规模上得到了改进，并在复杂度和推理速度基准测试中大大优于字节级基准。

Apr, 2024

语言模型压缩算法综述

如何在不牺牲准确性的情况下压缩语言模型，本论文调查和总结了包括修剪、量化、知识蒸馏等在内的多样化压缩算法，并对其进行了深入分析，并根据我们的调查结果介绍了有前景的未来研究主题。

Jan, 2024

统一的基于学习的有损和无损的 JPEG 重新压缩

通过学习的量化表和马尔科夫分层变化自动编码器构建的统一有损和无损 JPEG 重新压缩框架，在接近上界的比特率下可以实现任意低的失真。据我们所知，这是填补 JPEG 图像损失和无损重压缩之间差距的第一个学习方法。

Dec, 2023

单文本压缩的最优字母表

本研究探讨了不同的字母表对于文本压缩的影响，推荐使用含有意义的音节或单词作为最佳压缩字母表，并优化编码表示以获得更好的压缩效果。

Jan, 2022

用掩码实现的语义数据压缩方法 —— 填字游戏

该研究侧重于英文文本，并利用其语义方面进一步改进压缩效率，主要思想源于填字游戏，即通过某些关键字母提供，即使隐藏的单词具有语义学特征，也可以被精确地重构，并提出了一种类似游戏的基于掩码的策略，编码器评估每个单词的语义重要性，然后掩盖较小的单词，目标解码器则通过使用 Transformer 中的语义上下文来恢复被掩盖的单词。实验证明，所提出的语义方法比传统方法如霍夫曼码和 UTF-8 代码可以更好地保留目标文本的含义，同时实现更高的压缩效率。

Apr, 2023

基于文本引导编码的神经图像压缩方法：兼顾像素水平和感知保真度

近期在文本引导的图像压缩方面的研究取得了巨大潜力，能够增强重构图像的感知质量，但这些方法往往在像素级保真度方面明显降低，限制了它们的实用性。为了填补这一空白，我们开发了一种新的文本引导图像压缩算法，实现了高感知和像素级保真度，该压缩框架主要通过文本自适应编码和联合图像 - 文本损失的训练来利用文本信息。通过这样做，我们避免了基于文本引导生成模型的解码，这种模型以高度生成多样性著称，并有效地利用了文本的语义信息。各种数据集上的实验结果表明，我们的方法在像素级和感知质量方面均可达到较高水平，无论是人类生成的标题还是机器生成的标题。特别地，在与其他基准方法相比的 LPIPS 方面，我们的方法表现出色，并且在使用更加精心生成的标题时，仍有进一步提高的空间。

Mar, 2024

图像压缩的各种技术调查

本研究调查了不同的图像压缩技术，针对不同的数据类型采用不同的技术，介绍了两种基本的图像压缩技术，以及在某些领域使用神经网络和遗传算法进行图像压缩的方法.

Nov, 2013

文本 + 草图：超低比特率图像压缩

该论文研究了如何将基于 Billion-scale 数据集预训练的文本到图片生成模型用于图像压缩，并证明这些模型可以在很低的比特率情况下实现比学习压缩器更好的感知和语义保真度。

Jul, 2023