使用自然语言的语言 - 视觉嵌入学习以理解电影
本文提出了一种名为 LSTM-E 的新型统一框架,它可以同时探索 LSTM 和视觉 - 语义嵌入的学习,以有效生成自然语言描述的视频内容,实验表明 LSTM-E 在生成自然语言句子方面的表现优于目前为止的最佳表现,对于预测 SVO 三元组也超过了几种最先进的技术。
May, 2015
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
本文提出了一种多模态学习的编码器 - 解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码,该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征,提出了一种在无显式监督下学习高级特征的方法,并将其应用于多项任务,如动作分类和视频字幕生成等,取得了优越的成绩。
Apr, 2019
该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架,结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入,实现了跨域多模态表示的提取,并构建了更全面的标记和未标记数据的嵌入,帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。
Mar, 2017
该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。
Nov, 2023
通过自动增强语言 - 视频数据集和多方位视频字幕生成方法,提高语言 - 视频表示能力,并通过多模态检索模型验证其有效性。
Jun, 2024
文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法,通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。
Aug, 2018
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018