面向零资源口语语言的视觉提示关键词定位

Oct, 2022

面向零资源口语语言的视觉提示关键词定位

Towards visually prompted keyword localisation for zero-resource spoken languages

Leanne Nortje, Herman Kamper

TL;DR该论文提出了视觉提示关键字定位 (VPKL) 任务，旨在通过一个具有新型定位注意力机制的语音视觉模型，使用一个新的关键字采样方案定位和预测输入中的关键字，相较于基于视觉词袋模型（Visual BoW）的检测和定位，VPKL 模型在关键字检测和定位精度上都有了提高，定位 F1 值相较词袋模型提升了 16%。

Abstract

Imagine being able to show a system a visual depiction of a keyword and finding spoken utterances that contain this keyword from a zero-resource speech corpus. We formalise this task and call it visually prompted keyword localisation (VPKL): given an image of a keyword, detect and predict where in an utterance the keyword occurs. To do VPKL, we propose a

visual prompted keyword localization speech-vision model localizing attention mechanism keyword sampling scheme visual bag-of-words model

发现论文，激发创造

使用基于视觉的语音模型对未转录语音进行关键词定位

本文提出了基于视觉语音联合训练的模型，通过设置三层局部化能力实现了在语音中关键词的局部化，并使用注意力模型和得分聚合模型在模型结构中加入局部化能力，同时使用输入遮蔽方法和显著度方法实现预测优化。

Feb, 2022

基于视觉信息的低资源语言关键词检测和定位

该研究探讨了使用视觉语音绑定（VGS）模型在语音中进行关键词定位的方法，聚焦于两个主要研究问题:（1）是否可以使用 VGS 模型进行关键词定位？（2）在真正的低资源环境中是否可以进行跨语言的关键词定位？论文提出并评估了四种本地化方法，精度为 57％。此外，该研究还收集和发布了 Yoruba 语言的口语字幕数据集供跨语言关键词本地化使用。该跨语言模型的实际关键词定位精度为 16％，并且进行初始化时可以通过在英语数据上预先训练的模型获得更好的性能。论文还提供了模型成功和失败模式的详细分析，并强调了在低资源环境中使用 VGS 模型进行关键词本地化的挑战。

Feb, 2023

野外视觉语音识别零样本关键词检测

本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题，并使用端到端的多层神经网络架构，使用语音图形编码器解决了此问题，该模型在 LRS2 数据集上取得了非常有前途的结果。

Jul, 2018

注意力视觉关键词检测

本研究提出 Transpotter 模型，使用全面的跨模态注意力机制在视觉和语音流之间进行交互，成功实现静默视频序列中的语音关键词检测，并且在多项测试中，优于当前视觉关键词检测和唇语识别模型，并具备较强的嘴型单词分离的能力。

Oct, 2021

观察唤醒词：视听关键词检测

本研究提出一种名为 KWS-Net 的卷积神经网络结构，通过序列匹配和模式检测技术，从视觉角度自动检测并确定在何时，是否有包含关键词的口型出现，在无音频或有清晰 / 嘈杂语音的情况下，性能优于现有的同类方法，还在跨语言处理上实现了良好的表现。

Sep, 2020

PVLR：基于提示的视觉语言表示学习用于多标签图像识别

在这篇论文中，我们提出了一种 Prompt-driven Visual-Linguistic Representation Learning（PVLR）框架，通过双提示策略和交互融合模块，更好地利用了语言模型的能力，以提高多标签图像识别的性能。实验证明了 PVLR 的卓越性能。

Jan, 2024

基于视觉化支撑的未转录语音关键词预测学习

这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Mar, 2017

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

PiTL：基于提示的弱监督视觉语言预训练的跨模态检索

本文提出了一种利用大型语言模型从图像中生成标签以进行虚实预训练，减少了对昂贵标注数据的需求，并在图片文字检索方面得到显著的效果提升。

Jul, 2023

探索用于小尺寸关键词检测的表示学习

本文探讨了如何利用自监督对比学习和预训练模型来进行低资源关键词检测中的表征学习，通过构建局部 - 全局对比同构网络和利用预训练 Wav2Vec 2.0 模型，该小型模型可以利用未标记的数据进行预训练，实验结果表明在小的标记数据集的情况下，自我训练的 WVC 模块和自监督的 LGCSiam 模块可以显著提高准确性。

Mar, 2023