语音描述图像和视频的转录增强联合嵌入

CVPRJun, 2020

语音描述图像和视频的转录增强联合嵌入

Transcription-Enriched Joint Embeddings for Spoken Descriptions of Images and Videos

Benet Oriol, Jordi Luque, Ferran Diego, Xavier Giro-i-Nieto

TL;DR本研究提出了一种有效的方法，通过结合图像、口头和文本叙述三种同时模态的特征来训练唯一的嵌入表示，实验证明加入人工生成的文本转录可以提升训练程序，在任务如图像和语音的检索中取得了更好的嵌入表示的性能。

Abstract

In this work, we propose an effective approach for training unique embedding representations by combining three simultaneous modalities: image and spoken and textual narratives. The proposed methodology departs from a baseline system that spawns a embedding space trained with only

embedding representations modalities spoken narratives image cues textual transcriptions

发现论文，激发创造

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

视觉引导的归纳偏置在口语学习中的应用

本文讨论了一种利用多任务学习的方式，在端到端的语言处理中利用已有的转录发音从而带来图像检索表现的一个显著的提高，这是由于转录发音为模型提供了很强的归纳偏置，这些是通过匹配发音字幕、语音和文本、以及文本和图像等三个任务来实现的。

Dec, 2018

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

语音文本语义对齐嵌入的分析

本论文研究联合语音 - 文本 Embeddings 空间的内在属性，借助自动语音识别，通过多任务预训练场景实现语义对齐，利用定量检索精度度量语义对齐，进行了深入分析。

Apr, 2022

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

口述时刻：从视频描述中学习联合音频视觉表示

本文介绍了一种新的数据集，名为 ‘Spoken Moments’，共收集了 500k 由语音记录的视频描述并提出一种名为 AMM 的对比学习方法，用于视频标注和检索任务，并通过评估得到了较好的实验结果。

May, 2021

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

学习深度结构保持的图像文本嵌入

提出使用双分支神经网络进行联合嵌入图像和文本的方法，包含多层线性投影和非线性激活函数，通过结合度量学习和交叉视图约束优化进行训练，实验结果表明该方法在图像 - 文本检索和短语定位任务上具有显著性能改进。

Nov, 2015

从原始感官输入中联合发现视觉对象和口语单词

本文针对语音与图像之间的语义关联关系，探讨了不需要传统监督方式的神经网络模型，并使用了 Places 205 和 ADE20k 数据集来验证模型，在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。

Apr, 2018