野外视觉语音识别零样本关键词检测

ECCVJul, 2018

野外视觉语音识别零样本关键词检测

Zero-shot keyword spotting for visual speech recognition in-the-wild

Themos Stafylakis, Georgios Tzimiropoulos

TL;DR本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题，并使用端到端的多层神经网络架构，使用语音图形编码器解决了此问题，该模型在 LRS2 数据集上取得了非常有前途的结果。

Abstract

visual keyword spotting (KWS) is the problem of estimating whether a text query occurs in a given recording using only video information. This paper focuses on visual KWS for words unseen during training, a real-

visual keyword spotting video information end-to-end architecture grapheme-to-phoneme model recurrent neural networks

发现论文，激发创造

观察唤醒词：视听关键词检测

本研究提出一种名为 KWS-Net 的卷积神经网络结构，通过序列匹配和模式检测技术，从视觉角度自动检测并确定在何时，是否有包含关键词的口型出现，在无音频或有清晰 / 嘈杂语音的情况下，性能优于现有的同类方法，还在跨语言处理上实现了良好的表现。

Sep, 2020

深度口语关键词检测：概述

本文综述了深度口语识别应用技术，包括深度学习、语音识别、音视频识别等方向，旨在为相关从业者和研究人员提供指导和帮助。

Nov, 2021

注意力视觉关键词检测

本研究提出 Transpotter 模型，使用全面的跨模态注意力机制在视觉和语音流之间进行交互，成功实现静默视频序列中的语音关键词检测，并且在多项测试中，优于当前视觉关键词检测和唇语识别模型，并具备较强的嘴型单词分离的能力。

Oct, 2021

探索用于小尺寸关键词检测的表示学习

本文探讨了如何利用自监督对比学习和预训练模型来进行低资源关键词检测中的表征学习，通过构建局部 - 全局对比同构网络和利用预训练 Wav2Vec 2.0 模型，该小型模型可以利用未标记的数据进行预训练，实验结果表明在小的标记数据集的情况下，自我训练的 WVC 模块和自监督的 LGCSiam 模块可以显著提高准确性。

Mar, 2023

用于设备上关键词识别系统自定义的 Few-Shot 开放集学习

本研究针对 KeyWord Spotting 的应用场景，提出了基于 Deep Learning 和 Few-shot Learning 的开放式分类方法，并通过使用三元组损失训练编码器，实现了较高的精度和较低的未知数据虚警率。

Jun, 2023

面向零资源口语语言的视觉提示关键词定位

该论文提出了视觉提示关键字定位 (VPKL) 任务，旨在通过一个具有新型定位注意力机制的语音视觉模型，使用一个新的关键字采样方案定位和预测输入中的关键字，相较于基于视觉词袋模型（Visual BoW）的检测和定位，VPKL 模型在关键字检测和定位精度上都有了提高，定位 F1 值相较词袋模型提升了 16%。

Oct, 2022

基于语音增强的无监督学习关键词检测

本文研究了一种基于语音增强的无监督学习方法来解决关键词检测任务，提出了一种 CNN-Attention 模型来处理关键词检测任务，并通过两种语音增强方法来提高模型的稳健性和分类效果，实验表明，这种增强式的无监督学习方法能够进一步提高关键词检测的准确率。

May, 2022

基于注意力机制的端到端小尺寸关键词检测模型

本文介绍一种基于注意力机制和神经网络的小尺寸关键词检索方法，在 RNN 编码器和注意力机制的帮助下，以线性变换和 softmax 函数为基础，通过实验验证，与当前最新的深层学习关键词检索方法相比，本文提出的方法在准确率方面有较大提高，同时模型参数也更少。

Mar, 2018

如何教会关键词探测器在有限的示例下发现新关键词

KeySEM 是一种基于语音嵌入的关键词识别模型，可用于个性化关键词识别，并能够在有限的示例中高效地学习新关键词，提高关键词识别的性能，这种方法适用于需要在设备上进行学习和自定义的场景。

Jun, 2021

MM-KWS: 多模态用户定义多语言关键词检测

提出了 MM-KWS，一种新颖的用户定义关键词识别方法，利用文本和语音模板的多模态注册。通过从文本和语音中提取音素、文本和语音嵌入，将这些嵌入与查询语音嵌入进行比较，以检测目标关键词。为了确保 MM-KWS 在多种语言环境下的适用性，利用了包含多个多语言预训练模型的特征提取器。此外，还整合了高级数据增强工具，以提高 MM-KWS 在区分混淆单词方面的性能。在 LibriPhrase 和 WenetPhrase 数据集上的实验证明，MM-KWS 明显优于之前的方法。

Jun, 2024