Jan, 2024

通过利用音频场景语义实现自动图像着色

TL;DR通过利用音频的额外语义信息,本文提出了一种新颖的自动图像上色网络(AIAIC),它由三个阶段组成,通过颜色图像语义作为桥梁的预训练、学习音频和视觉场景之间的颜色语义相关性以及利用隐式音频语义表示实现音频引导的上色,实验表明音频引导能够有效改善自动着色的性能,特别是对于那些仅仅从视觉模态理解起来比较困难的场景。