使用基于视觉的语音模型对未转录语音进行关键词定位

Feb, 2022

使用基于视觉的语音模型对未转录语音进行关键词定位

Keyword localisation in untranscribed speech using visually grounded speech models

Kayode Olaleye, Dan Oneata, Herman Kamper

TL;DR本文提出了基于视觉语音联合训练的模型，通过设置三层局部化能力实现了在语音中关键词的局部化，并使用注意力模型和得分聚合模型在模型结构中加入局部化能力，同时使用输入遮蔽方法和显著度方法实现预测优化。

Abstract

keyword localisation is the task of finding where in a speech utterance a given query keyword occurs. We investigate to what extent keyword localisation is possible using a →

keyword localisation visually grounded speech self-supervised localisation capabilities input masking

发现论文，激发创造

基于视觉信息的低资源语言关键词检测和定位

该研究探讨了使用视觉语音绑定（VGS）模型在语音中进行关键词定位的方法，聚焦于两个主要研究问题:（1）是否可以使用 VGS 模型进行关键词定位？（2）在真正的低资源环境中是否可以进行跨语言的关键词定位？论文提出并评估了四种本地化方法，精度为 57％。此外，该研究还收集和发布了 Yoruba 语言的口语字幕数据集供跨语言关键词本地化使用。该跨语言模型的实际关键词定位精度为 16％，并且进行初始化时可以通过在英语数据上预先训练的模型获得更好的性能。论文还提供了模型成功和失败模式的详细分析，并强调了在低资源环境中使用 VGS 模型进行关键词本地化的挑战。

Feb, 2023

面向零资源口语语言的视觉提示关键词定位

该论文提出了视觉提示关键字定位 (VPKL) 任务，旨在通过一个具有新型定位注意力机制的语音视觉模型，使用一个新的关键字采样方案定位和预测输入中的关键字，相较于基于视觉词袋模型（Visual BoW）的检测和定位，VPKL 模型在关键字检测和定位精度上都有了提高，定位 F1 值相较词袋模型提升了 16%。

Oct, 2022

基于视觉化支撑的未转录语音关键词预测学习

这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Mar, 2017

野外视觉语音识别零样本关键词检测

本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题，并使用端到端的多层神经网络架构，使用语音图形编码器解决了此问题，该模型在 LRS2 数据集上取得了非常有前途的结果。

Jul, 2018

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018

探索用于小尺寸关键词检测的表示学习

本文探讨了如何利用自监督对比学习和预训练模型来进行低资源关键词检测中的表征学习，通过构建局部 - 全局对比同构网络和利用预训练 Wav2Vec 2.0 模型，该小型模型可以利用未标记的数据进行预训练，实验结果表明在小的标记数据集的情况下，自我训练的 WVC 模块和自监督的 LGCSiam 模块可以显著提高准确性。

Mar, 2023

基于文本的视觉场景口语理解监督

这篇研究论文主要研究了通过视觉模型来对口语语音进行语义理解，在低资源语言中通过传统的管道方法和端到端方法来提高模型性能，并比较发现管道方法比端到端方法更适用于足够的文本情况下，而翻译可以有效地代替转录，但需要更多的数据才能获得类似的结果。

Oct, 2020

注意力视觉关键词检测

本研究提出 Transpotter 模型，使用全面的跨模态注意力机制在视觉和语音流之间进行交互，成功实现静默视频序列中的语音关键词检测，并且在多项测试中，优于当前视觉关键词检测和唇语识别模型，并具备较强的嘴型单词分离的能力。

Oct, 2021

YFACC: 通过视觉基础定位实现跨语关键字本地化的 Yorùbá 语言语音和图像数据集

本文介绍了一种基于注意力机制的 VGS 模型，通过将图像与 Yorùbá 语言的话语配对并自动标记英文视觉标签，实现了跨语言关键词定位，以解决新兴语种的语音系统数据不足的问题。

Oct, 2022

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017