基于视觉信息的低资源语言关键词检测和定位

Feb, 2023

基于视觉信息的低资源语言关键词检测和定位

Visually Grounded Keyword Detection and Localisation for Low-Resource Languages

Kayode Kolawole Olaleye

TL;DR该研究探讨了使用视觉语音绑定（VGS）模型在语音中进行关键词定位的方法，聚焦于两个主要研究问题:（1）是否可以使用 VGS 模型进行关键词定位？（2）在真正的低资源环境中是否可以进行跨语言的关键词定位？论文提出并评估了四种本地化方法，精度为 57％。此外，该研究还收集和发布了 Yoruba 语言的口语字幕数据集供跨语言关键词本地化使用。该跨语言模型的实际关键词定位精度为 16％，并且进行初始化时可以通过在英语数据上预先训练的模型获得更好的性能。论文还提供了模型成功和失败模式的详细分析，并强调了在低资源环境中使用 VGS 模型进行关键词本地化的挑战。

Abstract

This study investigates the use of visually grounded speech (VGS) models for keyword localisation in speech. The study focusses on two main research questions: (1) Is →

visually grounded speech keyword localisation cross-lingual low-resource setting yoruba language

发现论文，激发创造

使用基于视觉的语音模型对未转录语音进行关键词定位

本文提出了基于视觉语音联合训练的模型，通过设置三层局部化能力实现了在语音中关键词的局部化，并使用注意力模型和得分聚合模型在模型结构中加入局部化能力，同时使用输入遮蔽方法和显著度方法实现预测优化。

Feb, 2022

YFACC: 通过视觉基础定位实现跨语关键字本地化的 Yorùbá 语言语音和图像数据集

本文介绍了一种基于注意力机制的 VGS 模型，通过将图像与 Yorùbá 语言的话语配对并自动标记英文视觉标签，实现了跨语言关键词定位，以解决新兴语种的语音系统数据不足的问题。

Oct, 2022

印地语作为第二语言：利用语义相似的样本改进基于视觉的语音

本研究旨在从多语言角度探讨视觉引导语音模型（VGS）的学习。研究发现，将高资源语言的知识转化为低资源语言的知识可以提高跨模态检索任务中低资源语言的性能，对此，文章提出了两种方法：（1）使用强大的预训练高资源语言编码器和（2）使用语义相似的口语字幕。通过实验证明，这两种方法结合起来可以有效地使低资源语言的表现超越单语和双语对应物。

Mar, 2023

面向零资源口语语言的视觉提示关键词定位

该论文提出了视觉提示关键字定位 (VPKL) 任务，旨在通过一个具有新型定位注意力机制的语音视觉模型，使用一个新的关键字采样方案定位和预测输入中的关键字，相较于基于视觉词袋模型（Visual BoW）的检测和定位，VPKL 模型在关键字检测和定位精度上都有了提高，定位 F1 值相较词袋模型提升了 16%。

Oct, 2022

OV-VG：开放词汇视觉定位基准

本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务，即开放式视觉定位与开放式短语定位，这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别，并增强视觉和语言信息之间的对齐。经过广泛的实验验证，我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。

Oct, 2023

探索用于小尺寸关键词检测的表示学习

本文探讨了如何利用自监督对比学习和预训练模型来进行低资源关键词检测中的表征学习，通过构建局部 - 全局对比同构网络和利用预训练 Wav2Vec 2.0 模型，该小型模型可以利用未标记的数据进行预训练，实验结果表明在小的标记数据集的情况下，自我训练的 WVC 模块和自监督的 LGCSiam 模块可以显著提高准确性。

Mar, 2023

基于文本的视觉场景口语理解监督

这篇研究论文主要研究了通过视觉模型来对口语语音进行语义理解，在低资源语言中通过传统的管道方法和端到端方法来提高模型性能，并比较发现管道方法比端到端方法更适用于足够的文本情况下，而翻译可以有效地代替转录，但需要更多的数据才能获得类似的结果。

Oct, 2020

低资源环境下基于视觉支撑的少样本词汇学习

本研究提出了一种视觉语音模型，能够通过少量的图像和单词样本来学习新词汇及其视觉描述，并通过多模式少量样本的学习在低资源语言 Yoruba 中取得更好的表现。

Jun, 2023

语言引导扩散模型用于视觉定位

通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询 - 区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。

Aug, 2023

语音视频定位的视频引导课程学习

本文介绍了一种新的任务：口语视频 grounding（SVG），旨在将口语描述中的期望视频片段定位出来。该文通过电视测试数据表明，采用音频需要模型直接从原始语音中利用有用的音素和音节与视频相关信息。为了更好地模拟实际应用，还将环境噪声随机添加到这种语音音频中，用于纠正识别性音素并从噪声音频中提取视频相关信息，研发一种新的视频引导课程学习（VGCL）方法。经过广泛的实验证明，我们提出的视频引导课程学习可能促进预训练过程，从而获得一种相互的音频编码器，并显着促进了口语视频焦点任务的表现。

Sep, 2022