语音描述图像和视频的转录增强联合嵌入
本文提出了一种模型,其将图像和相关的口头描述作为输入,并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号,并采用嵌入和对准模型将两个网络联系在一起,以学习跨两种模态的联合语义空间,最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。
Nov, 2015
本文讨论了一种利用多任务学习的方式,在端到端的语言处理中利用已有的转录发音从而带来图像检索表现的一个显著的提高,这是由于转录发音为模型提供了很强的归纳偏置,这些是通过匹配发音字幕、语音和文本、以及文本和图像等三个任务来实现的。
Dec, 2018
这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕,并且通过使用双编码器来对音频和图像进行编码,使用掩码边界软最大损失对这些模型进行微调,并在 Flickr8k 音频字幕语料库上实现了最新的结果。
Sep, 2019
本论文研究联合语音 - 文本 Embeddings 空间的内在属性,借助自动语音识别,通过多任务预训练场景实现语义对齐,利用定量检索精度度量语义对齐,进行了深入分析。
Apr, 2022
文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法,通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。
Aug, 2018
本文介绍了一种新的数据集,名为 ‘Spoken Moments’,共收集了 500k 由语音记录的视频描述并提出一种名为 AMM 的对比学习方法,用于视频标注和检索任务,并通过评估得到了较好的实验结果。
May, 2021
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
提出使用双分支神经网络进行联合嵌入图像和文本的方法,包含多层线性投影和非线性激活函数,通过结合度量学习和交叉视图约束优化进行训练,实验结果表明该方法在图像 - 文本检索和短语定位任务上具有显著性能改进。
Nov, 2015
本文针对语音与图像之间的语义关联关系,探讨了不需要传统监督方式的神经网络模型,并使用了 Places 205 和 ADE20k 数据集来验证模型,在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。
Apr, 2018