语音视觉对齐的快慢转换器

Sep, 2021

Fast-Slow Transformer for Visually Grounding Speech

Puyuan Peng, David Harwath

TL;DR研究提出了一种基于 Transformer 的模型 FaST-VGS，将双编码器和交叉注意力结构统一到一个模型中，实现了查询速度和准确性的平衡，并在基准数据集上实现了最先进的语音 - 图像检索准确性，其学习到的表示在 ZeroSpeech 2021 语音和语义任务中表现出了强大的性能。

Abstract

We present fast-slow transformer for visually grounding speech, or FaST-VGS. FaST-VGS is a transformer-based model for learning the associ

fast-slow transformer visually grounding speech transformer-based model dual-encoder cross-attention

发现论文，激发创造

自监督语音表征学习：基于视觉辅助和屏蔽语言建模

本研究基于最近提出的 FaST-VGS 模型，该模型是一种基于 Transformer 的模型，学习将原始语音波形与语义相关的图像相关联，同时引入了一种新颖的扩展模型 FaST-VGS +，该模型在多任务训练中学习了掩码语言建模目标和视觉基础目标。我们的研究在 ZeroSpeech 2021 Challenge 和 SUPERB benchmark 上表现强劲，几乎在 Lexical 任务上与最佳系统相媲美。

Feb, 2022

TransVG：基于 Transformer 的端到端视觉定位

本文提出了一种基于 Transformer 的视觉定位框架 TransVG，通过建立多模态对应关系，实现使用简单 Transformer 编码器层替代复杂的融合模块，在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。

Apr, 2021

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

快与慢的思考：利用 Transformer 进行高效的文本 - 图像检索

本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索，并将两种方法相结合，提高了检索准确性并确保了可扩展性，同时还引入了新的细粒度跨注意力架构，并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型，并在 Flickr30K 图像数据集和 VATEX 视频数据集上验证了该方法。

Mar, 2021

印地语作为第二语言：利用语义相似的样本改进基于视觉的语音

本研究旨在从多语言角度探讨视觉引导语音模型（VGS）的学习。研究发现，将高资源语言的知识转化为低资源语言的知识可以提高跨模态检索任务中低资源语言的性能，对此，文章提出了两种方法：（1）使用强大的预训练高资源语言编码器和（2）使用语义相似的口语字幕。通过实验证明，这两种方法结合起来可以有效地使低资源语言的表现超越单语和双语对应物。

Mar, 2023

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

同步还是顺序训练？多任务自监督学习系统中语音表示如何协作

本文研究了基于 wav2vec 2.0 的自我监督学习和基于 transformer 的视觉接地语音的联合优化作为多任务学习系统，发现先进行 wav2vec 2.0 的串行训练，再进行 VGS 可以提高音频 - 视觉检索的性能，但是并行 SSL-VGS 培训可以降低优化标准之间切换时遗忘的影响。VGS 机制学习到的音位表示可能会比通过 SSL 学习到的音位表示更好地概括跨数据集。

Jun, 2023

多模态增量变压器结合视觉定位生成视觉对话

该研究提出了一种多模态增量变形器（MITVG）的视觉指向方法，该方法可以显式地定位与文本实体相关的图像对象，从而帮助模型排除不需要关注的视觉内容，进而在多轮对话历史记录和视觉场景的基础上生成一致且连贯的响应。该模型在 VisDial v0.9 和 v1.0 数据集上实验结果证明了其优越性能。

Sep, 2021

基于视觉信息的低资源语言关键词检测和定位

该研究探讨了使用视觉语音绑定（VGS）模型在语音中进行关键词定位的方法，聚焦于两个主要研究问题:（1）是否可以使用 VGS 模型进行关键词定位？（2）在真正的低资源环境中是否可以进行跨语言的关键词定位？论文提出并评估了四种本地化方法，精度为 57％。此外，该研究还收集和发布了 Yoruba 语言的口语字幕数据集供跨语言关键词本地化使用。该跨语言模型的实际关键词定位精度为 16％，并且进行初始化时可以通过在英语数据上预先训练的模型获得更好的性能。论文还提供了模型成功和失败模式的详细分析，并强调了在低资源环境中使用 VGS 模型进行关键词本地化的挑战。

Feb, 2023

音频视觉 SlowFast 网络用于视频识别

该研究提出了 Audiovisual SlowFast Networks，一种用于集成视听感知的架构，并通过多层次融合视听特征以及采用 DropPathway regularization 技术对音频路径进行正则化来提高训练效果，并通过层次感知来学习联合视听特征，该方法在六个视频动作分类和检测数据集上取得了最先进的结果。

Jan, 2020