基于文本的视觉场景口语理解监督
本文讨论了一种利用多任务学习的方式,在端到端的语言处理中利用已有的转录发音从而带来图像检索表现的一个显著的提高,这是由于转录发音为模型提供了很强的归纳偏置,这些是通过匹配发音字幕、语音和文本、以及文本和图像等三个任务来实现的。
Dec, 2018
这篇论文中,采用图像与未翻译口头说明的组合,研究计算机视觉系统是否可以用于获取语音的文本标签,并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后,训练神经网络将语音映射到这些软目标。结果表明,语音识别系统能够预测话语中出现的单词,并作为口头词组分类器,同时还经常混淆语义相关的词,例如 “男人” 和 “人” ,使其效果更好作为语义关键词识别器。
Mar, 2017
通过现有的图像字幕系统,将图像与文本相连接,实现语音音频与文本之间的直接映射,从而扩展了视觉语音模型的连接方式。本研究在一个低资源语言 Yorùbá 上,提出了一种 Yorùbá- 英语语音翻译模型,利用预训练组件以实现在低资源环境中的学习,并通过使用能产生多样的图像字幕的解码方案来限制过拟合现象。结果显示预测的翻译捕捉到了口头音频的主要语义,尽管形式上更简单且更简短。
Jun, 2024
利用视觉基础方法,通过学习不成对指导视频中讲解的语言产生共同的视觉表示方法。我们可以将这种共同的表示方法用于单词映射和跨语言翻译,尤其是对于 “视觉” 单词。同时,我们的基于视觉 - 文本的转换算法 MUVE 提高了非监督文本翻译技术的性能,特别是处理少见单词和低资源语言数据时。
Mar, 2020
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
Oct, 2023
本研究旨在从多语言角度探讨视觉引导语音模型(VGS)的学习。研究发现,将高资源语言的知识转化为低资源语言的知识可以提高跨模态检索任务中低资源语言的性能,对此,文章提出了两种方法:(1)使用强大的预训练高资源语言编码器和(2)使用语义相似的口语字幕。通过实验证明,这两种方法结合起来可以有效地使低资源语言的表现超越单语和双语对应物。
Mar, 2023
本研究提出了「vokenization」技术,通过将语言令牌与相关的图像(称为「vokens」)上下文映射到语言仅数据中,将多模态对齐推广到仅语言数据,并利用这些生成的 vokens 进行训练。使用这些训练有素的 vokens,我们的视觉监督语言模型在多个语言任务上均表现出了一致的改进。
Oct, 2020
本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示,结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型,因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。
Sep, 2021