自监督语音表征学习：基于视觉辅助和屏蔽语言建模

AAAIFeb, 2022

自监督语音表征学习：基于视觉辅助和屏蔽语言建模

Self-Supervised Representation Learning for Speech Using Visual Grounding and Masked Language Modeling

Puyuan Peng, David Harwath

TL;DR本研究基于最近提出的 FaST-VGS 模型，该模型是一种基于 Transformer 的模型，学习将原始语音波形与语义相关的图像相关联，同时引入了一种新颖的扩展模型 FaST-VGS +，该模型在多任务训练中学习了掩码语言建模目标和视觉基础目标。我们的研究在 ZeroSpeech 2021 Challenge 和 SUPERB benchmark 上表现强劲，几乎在 Lexical 任务上与最佳系统相媲美。

Abstract

In this paper, we describe our submissions to the zerospeech 2021 challenge and superb benchmark. Our submissions are based on the recently proposed →

zerospeech 2021 challenge fast-vgs model transformer-based model visual grounding objective superb benchmark

发现论文，激发创造

语音视觉对齐的快慢转换器

研究提出了一种基于 Transformer 的模型 FaST-VGS，将双编码器和交叉注意力结构统一到一个模型中，实现了查询速度和准确性的平衡，并在基准数据集上实现了最先进的语音 - 图像检索准确性，其学习到的表示在 ZeroSpeech 2021 语音和语义任务中表现出了强大的性能。

Sep, 2021

同步还是顺序训练？多任务自监督学习系统中语音表示如何协作

本文研究了基于 wav2vec 2.0 的自我监督学习和基于 transformer 的视觉接地语音的联合优化作为多任务学习系统，发现先进行 wav2vec 2.0 的串行训练，再进行 VGS 可以提高音频 - 视觉检索的性能，但是并行 SSL-VGS 培训可以降低优化标准之间切换时遗忘的影响。VGS 机制学习到的音位表示可能会比通过 SSL 学习到的音位表示更好地概括跨数据集。

Jun, 2023

基于视觉反馈的自监督语音模型中的词语发现

本文提出了一种可视化感知的口语术语探测方法，通过对自注意力头的训练与分析发现，在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力，并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。

Mar, 2022

基于模型和数据的视觉定位学习

SynGround 是一个结合数据驱动学习和知识传递的新框架，通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力，并通过合成图像和文本来提高模型性能，最终在多个数据集上展示出提升。

Mar, 2024

印地语作为第二语言：利用语义相似的样本改进基于视觉的语音

本研究旨在从多语言角度探讨视觉引导语音模型（VGS）的学习。研究发现，将高资源语言的知识转化为低资源语言的知识可以提高跨模态检索任务中低资源语言的性能，对此，文章提出了两种方法：（1）使用强大的预训练高资源语言编码器和（2）使用语义相似的口语字幕。通过实验证明，这两种方法结合起来可以有效地使低资源语言的表现超越单语和双语对应物。

Mar, 2023

SUPERB-SG: 语音处理语义与生成能力的增强通用性能基准

介绍 SUPERB-SG - 一个新的基准测试，用于评估预训练模型的语义和生成能力，并使用轻量级方法测试预训练模型所学习表示的鲁棒性，以更全面地了解模型的效果和通用性。

Mar, 2022

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

TransVG：基于 Transformer 的端到端视觉定位

本文提出了一种基于 Transformer 的视觉定位框架 TransVG，通过建立多模态对应关系，实现使用简单 Transformer 编码器层替代复杂的融合模块，在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。

Apr, 2021

大规模自监督语音表征学习用于自动化说话者验证

使用预训练模型学习到的语音表示作为输入特征，采用可学习权重的平均表示方法，在 Voxceleb 数据集上进行了自我监督训练，实现了自动说话人验证，在三个官方测试中分别取得了 0.537％、0.569％和 1.180％的等误差率（EER），超越了 VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC2021) 中的优胜系统。

Oct, 2021