Apr, 2023

用掩码实现的语义数据压缩方法 —— 填字游戏

TL;DR该研究侧重于英文文本,并利用其语义方面进一步改进压缩效率,主要思想源于填字游戏,即通过某些关键字母提供,即使隐藏的单词具有语义学特征,也可以被精确地重构,并提出了一种类似游戏的基于掩码的策略,编码器评估每个单词的语义重要性,然后掩盖较小的单词,目标解码器则通过使用 Transformer 中的语义上下文来恢复被掩盖的单词。 实验证明,所提出的语义方法比传统方法如霍夫曼码和 UTF-8 代码可以更好地保留目标文本的含义,同时实现更高的压缩效率。