Aug, 2024

当视频编码遇到多模态大型语言模型:视频编码的统一范式

TL;DR本研究解决了现有视频编码器未充分利用多模态大型语言模型(MLLMs)所带来的外部先验的问题。我们提出了一种横跨模态的视频编码统一范式,通过将视频拆分为空间内容和运动成分来实现更紧凑的表示。实验结果表明,TT2V模式能有效重建语义信息,而IT2V模式则展现出良好的感知一致性,指明了视频编码未来的研究方向。