基于词的文本压缩
使用大型语言模型 LLaMA-7B,我们给出了一组英文熵的渐进上界估计,并基于该估计提出了一种结合大型语言模型和无损压缩方案的英文文本无损压缩算法,初步结果显示出优于 BSC,ZPAQ 和 paq8h 等现有文本压缩方案的性能。
Jun, 2023
我们提出了一种新颖的轻量级监督字典学习框架,用于基于数据压缩和表示的文本分类。该算法通过 LZW 算法从文本数据集构建字典,优化字典元素并考虑标签数据,生成区分性数值表示,以便训练 SVM 和神经网络等简单分类器。我们通过信息瓶颈原理进行信息理论性能评估,并引入信息平面区域排名为新的度量指标。在六个基准文本数据集上的测试中,我们的算法与顶级模型表现接近,尤其在有限词汇环境下,使用显著少的参数。然而,在多样词汇数据集上表现不佳,可能是由于 LZW 算法在低重复数据上的限制。这个对比突出了它在不同数据集类型上的效率和局限性。
Apr, 2024
本文探讨了在高度压缩的文本上训练大型语言模型(LLMs)的想法。通过提出等信息窗口这一新的压缩技术,我们展示了在神经压缩文本上有效学习的方法,该方法在规模上得到了改进,并在复杂度和推理速度基准测试中大大优于字节级基准。
Apr, 2024
如何在不牺牲准确性的情况下压缩语言模型,本论文调查和总结了包括修剪、量化、知识蒸馏等在内的多样化压缩算法,并对其进行了深入分析,并根据我们的调查结果介绍了有前景的未来研究主题。
Jan, 2024
通过学习的量化表和马尔科夫分层变化自动编码器构建的统一有损和无损 JPEG 重新压缩框架,在接近上界的比特率下可以实现任意低的失真。据我们所知,这是填补 JPEG 图像损失和无损重压缩之间差距的第一个学习方法。
Dec, 2023
该研究侧重于英文文本,并利用其语义方面进一步改进压缩效率,主要思想源于填字游戏,即通过某些关键字母提供,即使隐藏的单词具有语义学特征,也可以被精确地重构,并提出了一种类似游戏的基于掩码的策略,编码器评估每个单词的语义重要性,然后掩盖较小的单词,目标解码器则通过使用 Transformer 中的语义上下文来恢复被掩盖的单词。 实验证明,所提出的语义方法比传统方法如霍夫曼码和 UTF-8 代码可以更好地保留目标文本的含义,同时实现更高的压缩效率。
Apr, 2023
近期在文本引导的图像压缩方面的研究取得了巨大潜力,能够增强重构图像的感知质量,但这些方法往往在像素级保真度方面明显降低,限制了它们的实用性。为了填补这一空白,我们开发了一种新的文本引导图像压缩算法,实现了高感知和像素级保真度,该压缩框架主要通过文本自适应编码和联合图像 - 文本损失的训练来利用文本信息。通过这样做,我们避免了基于文本引导生成模型的解码,这种模型以高度生成多样性著称,并有效地利用了文本的语义信息。各种数据集上的实验结果表明,我们的方法在像素级和感知质量方面均可达到较高水平,无论是人类生成的标题还是机器生成的标题。特别地,在与其他基准方法相比的 LPIPS 方面,我们的方法表现出色,并且在使用更加精心生成的标题时,仍有进一步提高的空间。
Mar, 2024
该论文研究了如何将基于 Billion-scale 数据集预训练的文本到图片生成模型用于图像压缩,并证明这些模型可以在很低的比特率情况下实现比学习压缩器更好的感知和语义保真度。
Jul, 2023