基于文本的视觉场景口语理解监督

EMNLPOct, 2020

基于文本的视觉场景口语理解监督

Textual Supervision for Visually Grounded Spoken Language Understanding

Bertrand Higy, Desmond Elliott, Grzegorz Chrupała

TL;DR这篇研究论文主要研究了通过视觉模型来对口语语音进行语义理解，在低资源语言中通过传统的管道方法和端到端方法来提高模型性能，并比较发现管道方法比端到端方法更适用于足够的文本情况下，而翻译可以有效地代替转录，但需要更多的数据才能获得类似的结果。

Abstract

visually-grounded models of spoken language understanding extract semantic information directly from speech, without relying on transcriptions

visually-grounded models spoken language understanding low-resource languages transcriptions pipeline-based approach

发现论文，激发创造

视觉引导的归纳偏置在口语学习中的应用

本文讨论了一种利用多任务学习的方式，在端到端的语言处理中利用已有的转录发音从而带来图像检索表现的一个显著的提高，这是由于转录发音为模型提供了很强的归纳偏置，这些是通过匹配发音字幕、语音和文本、以及文本和图像等三个任务来实现的。

Dec, 2018

基于视觉化支撑的未转录语音关键词预测学习

这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Mar, 2017

口语视觉模型：数据集、架构和评价技术综述

本综述纵览近 20 年来视觉基础口语建模的发展，重点讨论了语言学习的核心研究问题、建模架构以及评估指标和分析技术。

Apr, 2021

仅使用图像进行语音翻译

通过现有的图像字幕系统，将图像与文本相连接，实现语音音频与文本之间的直接映射，从而扩展了视觉语音模型的连接方式。本研究在一个低资源语言 Yorùbá 上，提出了一种 Yorùbá- 英语语音翻译模型，利用预训练组件以实现在低资源环境中的学习，并通过使用能产生多样的图像字幕的解码方案来限制过拟合现象。结果显示预测的翻译捕捉到了口头音频的主要语义，尽管形式上更简单且更简短。

Jun, 2024

无监督的视频视觉定位词汇翻译

利用视觉基础方法，通过学习不成对指导视频中讲解的语言产生共同的视觉表示方法。我们可以将这种共同的表示方法用于单词映射和跨语言翻译，尤其是对于 “视觉” 单词。同时，我们的基于视觉 - 文本的转换算法 MUVE 提高了非监督文本翻译技术的性能，特别是处理少见单词和低资源语言数据时。

Mar, 2020

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

印地语作为第二语言：利用语义相似的样本改进基于视觉的语音

本研究旨在从多语言角度探讨视觉引导语音模型（VGS）的学习。研究发现，将高资源语言的知识转化为低资源语言的知识可以提高跨模态检索任务中低资源语言的性能，对此，文章提出了两种方法：（1）使用强大的预训练高资源语言编码器和（2）使用语义相似的口语字幕。通过实验证明，这两种方法结合起来可以有效地使低资源语言的表现超越单语和双语对应物。

Mar, 2023

Vokenization: 利用视觉引导监督改善语言理解

本研究提出了「vokenization」技术，通过将语言令牌与相关的图像（称为「vokens」）上下文映射到语言仅数据中，将多模态对齐推广到仅语言数据，并利用这些生成的 vokens 进行训练。使用这些训练有素的 vokens，我们的视觉监督语言模型在多个语言任务上均表现出了一致的改进。

Oct, 2020

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021

用文字转录结果定位物体检测

本文提出一种自动从指示视频中提取实体 - 视频帧对的方法，以用于创建任务特定的训练集元算法。

Jun, 2019