新闻故事：用视觉摘要来说明文章

ECCVJul, 2022

新闻故事：用视觉摘要来说明文章

NewsStories: Illustrating articles with visual summaries

Reuben Tan, Bryan A. Plummer, Kate Saenko, JP Lewis, Avneesh Sud...

TL;DR该研究探索了一个新的问题，即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法，其介绍了一个包括超过 31M 篇文章，22M 张图片和 1M 个视频的大规模多模态数据集，并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述，且还提出了一种直观的基线方法，在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。

Abstract

Recent self-supervised approaches have used large-scale image-text datasets to learn powerful representations that transfer to many tasks without finetuning. These methods often assume that there is one-to-one correspondence between its images and their (short) captions. However, many

self-supervised approaches visual-language representation multimodal dataset image-text alignment zero-shot image-set retrieval

发现论文，激发创造

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

新闻报道：通过图像和文本处理进行文章注释

本文提出了一种新颖的深度学习方法，适用于解决文字描述与图片内容松散相关的情况。这种方法在多任务和迁移学习中表现良好，可以有效地检测图片来源、预测热度、插图以及文章地理位置等问题。同时，研究人员构建了一个新的语料库以供研究者使用。研究表明，该方法在新闻文章的领域中具有很强的实用性。

Mar, 2016

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习

本文介绍了利用图像字幕预训练高质量视频模型的方法，并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效，使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能，并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。

Apr, 2023

高效图像探索与用户引导图像标题生成的视觉分析

运用预训练的大规模语言 - 图像模型，本文尝试解决可视化分析中的两个问题：大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题，我们能深入了解视觉内容的语义基础，并发现数据偏差。同时，通过展示视觉内容与文本标题之间的关联，揭示了预训练的语言 - 图像模型在标题生成能力上的不足，并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。

Nov, 2023

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

使用带噪文本监督扩展视觉和视觉语言表示学习

本文利用包含超过 10 亿个图像备选文本对的嘈杂数据集，采用简单的双编码器体系结构通过对比损失，学习了图像和文本对的视觉和语言表示，显示出我们语料库的规模可以弥补其噪音，即使使用这样的简单学习方案也能实现最先进的表现，使跨模式搜索变得更加容易。

Feb, 2021

图像文本生成的进展 —— 以自我合理化为案例研究

探索多模态模型在联合图像和文本生成任务中的表现，并发现单一模型类型不能通用地在所有任务、数据集和微调数据大小上表现最佳，加深了对从图像和文本生成超越图像字幕的新型通用骨干方法的需求。

May, 2022

只用语言数据学习视觉任务，竟然没有图像！

本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能，并将其转移到视觉任务中，同时提出探究对比模型嵌入空间中不同模态的系统差异，进一步理解和缓解这种关注的策略。实践证明，我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型，性能表现接近仅使用图像训练数据建立的模型，尤其是针对图像标注和视觉蕴含任务的文本训练数据，有望超过 9 个百分点的提升。同时，我们还展示了多种样式的图像标注模型，这些模型使用的不是图像数据和人工策划的语言数据，而是来自于图书、网络或语言模型可用的文本数据。

Nov, 2022