IJCAIApr, 2024

音频 - 视觉交叉模态条件语音提取中的分离

TL;DRAVSepChain 是一种多模态学习方法,通过将音频 - 视觉目标语音提取任务分为两个阶段(语音感知和语音产生),改善了模态不平衡的问题,并引入了对比语义匹配损失函数来确保生成的语音与语音产生阶段的唇部运动所传达的语义信息一致,实验结果表明该方法在多个基准数据集上具有卓越的性能。