Nov, 2023

THInImg:面向图像中表述说话模型的跨模态隐写技术

TL;DR利用人脸特性,隐蔽地将较长的音频数据隐藏在身份图像中,实现 THInImg 的编码和解码方法,能够在 160x160 分辨率的身份图像中展示高质量的 80 秒说话头视频(包括音频)。