通过使用迭代扩散模型进行解码,同时结合全局文本图像描述来提供额外的上下文,我们的模型在极低比特率下能够重建逼真的图像,其视觉质量不仅与以往方法相媲美,而且对比特率的依赖性更低。
Oct, 2023
通过使用条件扩散模型,本文展示了它作为解码器时在生成式压缩任务中的良好结果,同时通过采样方法,它们还允许在解码器端基于压缩表示创建新的失真和感知之间的权衡点。
Mar, 2024
我们提出了条件感知质量,即在用户定义的信息上进行的感知质量扩展,并基于理论结果提出了条件感知质量保持压缩的最优框架。实验结果表明,我们的编解码器成功地在所有比特率下保持高感知质量和语义质量,并提供了所需的共同随机性的下界,解决了关于是否应将随机性纳入生成器中进行(条件)感知质量压缩的之前的争论。补充材料中提供了源代码。
Aug, 2023
本文通过使用扩散生成模型,将自编码器与基于分数的解码器相结合的简单但理论上有动机的两阶段方法,实现了在给定比特率时提高视觉质量,并在 FID 分数上跑赢了最先进的方法 PO-ELIC 和 HiFiC。
May, 2023
使用生成模型进行压缩可提高失真度和视觉效果,对视频和图像压缩有效。相比传统的可变长度编码方案,生成压缩的鲁棒性更高,适应于噪声无线信道。
Mar, 2017
我们提出了一种端到端学习的图像压缩编解码器,其中分析变换与目标分类任务同时训练。该研究证实,压缩的潜在表示能够以与定制的基于深度神经网络的质量指标相媲美的准确性预测人的感知距离判断。我们进一步研究了各种神经编码器,并展示了将分析变换作为超出质量判断之外的图像任务的感知损失网络的有效性。我们的实验表明,现成的神经编码器在感知建模方面表现出色,无需额外的 VGG 网络。我们期望这项研究能够成为开发语义感知和编码高效的神经编码器的有价值参考。
Jan, 2024
本文提出了一种基于可逆神经网络(INNs)的 Invertible Encoding Network 方法来构建更好的图像空间和潜在特征空间之间的转换,并在 Kodak、CLIC 和 Tecnick 数据集上证明了该方法在高分辨率图像方面优于现有的学习图像压缩方法和压缩标准(包括 VVC (VTM 12.1))的实验结果。
Aug, 2021
本文提出了一种新的端到端学习的视频编码框架,将图像压缩通过条件编码进行泛化,允许处理同一编码器的帧内和帧间信息,并通过最小化速率失真成本进行训练,无需预训练或代理损失,其灵活性在三种编码配置下得到评估(全帧内、低延迟 P 和随机访问),并且表现出与 HEVC 视频编解码器一样具有竞争性的性能。
Apr, 2021
本文基于最小均方误差(MSE)和构造的完美感知解码器之间的输出进行线性插值实现失真和感知质量之间的权衡,提出了两个理论优化的训练框架,并通过实验证明这些框架在实际感知解码中不仅具有理论上的优越性,而且还能产生最先进的性能。
Jun, 2022
使用扩散模型的预测能力,在解码器中将多个神经压缩帧转换为连续的视频帧,以实现极端视频压缩,同时考虑感知质量指标,从低比特率下的位每像素(bpp)为 0.02 开始实现视觉上令人满意的重构,结果表明该方案比 H.264 和 H.265 等标准编解码器在低比特率领域具有更好的效果。
Feb, 2024