利用场景文本理解广告

CVPRJun, 2018

Don't only Feel Read: Using Scene text to understand advertisements

PDF

Arka Ujjal Dey, Suman K. Ghosh, Ernest Valveny

TL;DR提出一个并不仅使用视觉特征，还使用从内嵌文本中提取的文本线索实现广告图像自动分类的框架，利用广告图像所含的有意义的文本内容，在分类任务中提供有益的语义解释，并使用现成组件开发框架来展示文本线索在语义分类任务中的有效性。

Abstract

We propose a framework for automated classification of advertisement images, using not just visual features but also →

automated classification advertisement images visual features textual cues semantic classification

发现论文，激发创造

图像与视频广告自动理解

本文提出了自动广告理解的问题，并基于两个数据集进行了研究，包含主题和情感、问题和答案、符号引用以及广告使用的最常见的说服策略等多种注释。对于多个预测任务，包括自动回答广告信息问题，我们提供了基线分类结果。

Jul, 2017

多模式多任务学习中广告理解基准测试

为了更好地了解广告的主题和情感，本文提出了一种新颖的深度多模态多任务框架，将多种模态整合起来，同时实现广告的主题和情感的预测。通过多模态注意力模块，该模型在最新的大型广告数据集上实现了最先进的性能。

Dec, 2019

融合场景文本与视觉外观进行细粒度图像分类

本文提出了一种利用场景文本进行图像理解的方法，通过符号识别系统获取识别的单词和深层视觉特征的嵌入组合成一个可通过卷积神经网络进行优化的单一表示形式。通过引入注意力机制强化符号与图像之间的关系，不仅有效地提高分类准确率，而且可较大幅度提升产品图像检索性能。

Apr, 2017

超越视觉语义：探索场景文本在图像理解中的作用

本文提出了一种多通道的方法，既利用场景文本和视觉通道提取和编码图像信息，又建模它们之间的相互作用，生成具有更丰富语义的上下文联合嵌入，并在检索和分类任务上展示了其有效性。

May, 2019

VisualTextRank：基于图结构无监督内容提取技术，用于自动化广告文本到图像搜索

研究了如何通过关键词提取，实现在线广告投放中通过短文本查询获得相关广告图片。借助广告图像查询日志，VisualTextRank 算法成功解决了该问题，它通过提取广告文本（或文本增强版本）中的关键词来生成广告图片查询，显著提高了图片搜索准确度达 11%。

Aug, 2021

基于场景文本的细粒度图像分类与检索的多模态推理图

本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理，在 Con-Text 和 Drink Bottle 数据集中，在细粒度图像分类和图像检索任务中显著优于之前的最新技术。

Sep, 2020

超越聪明的叙述：视觉环境和注意力是视频广告情感主要的驱动因素

通过将视频内容拆分为检测到的物体、粗糙的场景结构、物体统计和通过的注视点识别的活动物体，我们测量了每个信息通道的重要性，并发现相比于其它场景元素，通过眼动追踪识别的活动物体和场景结构更好地编码情感信息。从而得出广告情感不仅仅取决于叙述和巧妙使用语言和社交暗示，而是受到视觉信息转化的影响的研究结果。

Aug, 2018

KAFA: 基于知识增强特征自适应的视觉语言模型重构图像广告理解

本文通过使用预训练的 VLM（基础视觉语言模型）进行第一次实证研究图片广告的理解。在此过程中，我们发现了适应这些 VLM 到图像广告理解中的实际挑战，并提出了一种简单的特征适应策略来有效融合图像广告的多模态信息，并进一步强化其对真实世界实体的知识。希望我们的研究能引起更多人对与广告行业广泛相关的图片广告理解的关注。

May, 2023

结合视觉和局部池化文本特征的细粒度图像分类和检索

本文提供了一种新颖的模型，使用 PHOC 描述符构建一组文本词袋以及 Fisher 向量编码，以处理文本与视觉数据之间的内在关系，从而在图像细分类和图像检索任务中获得最先进的结果。

Jan, 2020

通过图像文本转换实现更好文本理解

本文探讨了将视觉信息与文本表示相结合的模型，通过 comprehensive ablation studies，我们提出了一种简单但表现突出的架构，相对于其他的 multimodal approaches，在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时，也改进了与图像相关的文本数据集的最新成果。

May, 2017