Apr, 2023

看似相似,听起来不同:利用反事实的跨模态样本进行视听表示学习

TL;DR研究了在音频与视觉之间进行对应时,出现多个音频轨道时的学习效果,探讨了使用配音版本来增加跨模态对比学习的方法,提出了考虑语音变化时学习场景级别的音频视觉对应关系的重要性,并表明配音可以作为训练音频视觉模型的一种有用增强技术。