多张图片，多个句子文档中的多模式链接的无监督发现

Apr, 2019

多张图片，多个句子文档中的多模式链接的无监督发现

Unsupervised Discovery of Multimodal Links in Multi-image, Multi-sentence Documents

PDF

Jack Hessel, Lillian Lee, David Mimno

TL;DR通过探索图像和文本之间关联的算法，并基于文档中图像与文本集合是否同时出现的结构化训练目标，在不依赖于显式的多模态注释的情况下发现图像和句子之间的关系。

Abstract

images and text co-occur constantly on the web, but explicit links between →

images text co-occur algorithms training

发现论文，激发创造

理解、分类和预测语义图像 - 文本关系

本文借鉴视觉传达研究，探究了多模式信息检索的有用语义图像 - 文本关系，在自动收集和扩充数据资源的基础上，采用深度学习系统和三种度量标准（跨模态互信息、语义相关性和图像与文本的状态关系）对八种语义图像 - 文本类别进行了预测，并在一个严格的测试集上展示了该方法的可行性。

Jun, 2019

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

利用大规模网络标注图像进行多模态词嵌入的训练和评估

本研究旨在使用文本和视觉信息进行有效的单词嵌入训练和评估。研究人员提出了一个大规模数据集，其中包含 300 万语句，描述了来自 Pinterest 的超过 4000 万张图像。该研究还报道了一种基于 RNN 的多模态模型，通过在嵌入中整合视觉信息，该模型可以找到语义相似或相关的单词和短语。经验表明，共享策略对于学习这种多模态嵌入至关重要。

Nov, 2016

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

利用文档级结构信息进行图像 - 句子匹配的无监督采样方法

本文提出了一种基于 Transformer 模型的采样策略，用于减轻采样偏差以及识别文档内部的复杂模式，并实验验证了模型的有效性，从而实现了无监督图像 - 句子匹配。

Mar, 2021

新闻故事：用视觉摘要来说明文章

该研究探索了一个新的问题，即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法，其介绍了一个包括超过 31M 篇文章，22M 张图片和 1M 个视频的大规模多模态数据集，并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述，且还提出了一种直观的基线方法，在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。

Jul, 2022

使用多模态全卷积神经网络学习从文档中提取语义结构

该研究提出了一种全卷积网络，通过多模态方法从文档图像中提取语义结构，并使用像素级分割方式考虑文档的语义结构提取。该方法不仅考虑文本的视觉外观，还考虑文本的内容，通过有效的合成文档生成数据进行预训练和半监督学习方法滴定优化网络架构，施加于真实文档上，此方法极大地提高了分割的性能表现。

Jun, 2017

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016