基于目标区域学习的机器图像编码
通过辅助损失训练编码器以提升其识别能力和速率失真性能的一种新型学习图像编码方法,相较于传统训练方法,在物体检测和语义分割任务中分别实现了 27.7% 和 20.3% 的 Bjontegaard Delta 速率改进。
Feb, 2024
图像编码是图像识别中的一种图像压缩技术,本文提出了一种名为 SA-ICM 的方法,其关注对象图像部分的边缘信息的编码和解码,该方法可用于各种图像识别模型,具有数据变化的鲁棒性,并从隐私角度提供保护。此外,SA-ICM 方法还可应用于训练用于视频压缩的 NeRV 模型,通过使用 Segment Anything 创建的边缘信息,可以创建适用于图像识别的 NeRV 模型(SA-NeRV)。实验结果证实 SA-ICM 在图像压缩方面的优势,并且 SA-NeRV 在机器的视频压缩中优于普通的 NeRV。
Mar, 2024
图像编码技术旨在降低图像表示所需的比特率,同时最大程度地减少机器视觉分析准确性的下降。本研究提出了一种基于对抗训练的有效解码器微调方案,以显著提高图像编码技术的视觉质量,同时保持机器分析准确性,无需在推理阶段增加额外的比特率或参数。实验结果表明,在忽略任务性能分数相对变化 - 1.6% 的情况下,完全消除了棋盘格伪影。对于一些可容忍某些伪影的情况,例如机器消费是主要目标的情况,该技术可以提高像素保真度和特征保真度分数,同时不影响任务性能。
Jan, 2024
本文提出了一种名为 Omni-ICM 的 Image Coding for Machines 框架,通过自我监督学习和信息筛选模块,学习了通用且紧凑的全能特征,可直接用于基于学习的编解码器支持人工智能任务分析。与传统编码器和基于学习的编解码器相比,Omni-ICM 在多个基础视觉任务上表现出更好的性能。
Jul, 2022
本研究设计了一种基于神经网络的端到端学习的机器目标图像编解码器,通过一系列训练策略,解决了计算机视觉任务损失、图像失真损失和数据率损失之间竞争的问题,并在目标检测和实例分割任务中取得了比 VVC 标准更好的表现,是首个端到端学习的针对机器的图像编解码器。
Aug, 2021
提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法,这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能,同时在人类感知方面保持竞争性。
May, 2023
应用深度学习的方法解决在损失图像和视频压缩中提高视觉质量的问题,通过训练一个特定的卷积神经网络,实现对图像语义的理解,并通过对每个对象训练特征的方式生成高质量的压缩图像。
Dec, 2016
我们提出了一种基于学习的可扩展图像编码方法,适用于多种图像识别模型。通过将机器的图像压缩模型与人类的压缩模型相结合,利用特征融合网络实现了高效的图像压缩,并且减少了参数的数量。通过评估图像压缩性能,我们证明了这种可扩展编码方法的有效性。
May, 2024
本研究提出了一个新的图像编码框架 (Prompt-ICM),通过学习任务驱动提示来协调压缩过程和下游分析,解决了压缩策略的调整和压缩特征的任务适应性两个核心挑战,进而以高压缩效率支持不同的智能任务。
May, 2023