Jun, 2023

使用未标记的视频和预训练语言 - 视觉模型进行文本 - 音频合成的 CLIPSonic

TL;DR利用预训练模型和未标注视频数据,本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点,并通过传输模式来进一步提升性能。