Sep, 2021

语音视觉对齐的快慢转换器

TL;DR研究提出了一种基于 Transformer 的模型 FaST-VGS,将双编码器和交叉注意力结构统一到一个模型中,实现了查询速度和准确性的平衡,并在基准数据集上实现了最先进的语音 - 图像检索准确性,其学习到的表示在 ZeroSpeech 2021 语音和语义任务中表现出了强大的性能。