利用场景文本理解广告
本文提出了自动广告理解的问题,并基于两个数据集进行了研究,包含主题和情感、问题和答案、符号引用以及广告使用的最常见的说服策略等多种注释。对于多个预测任务,包括自动回答广告信息问题,我们提供了基线分类结果。
Jul, 2017
为了更好地了解广告的主题和情感,本文提出了一种新颖的深度多模态多任务框架,将多种模态整合起来,同时实现广告的主题和情感的预测。通过多模态注意力模块,该模型在最新的大型广告数据集上实现了最先进的性能。
Dec, 2019
本文提出了一种利用场景文本进行图像理解的方法,通过符号识别系统获取识别的单词和深层视觉特征的嵌入组合成一个可通过卷积神经网络进行优化的单一表示形式。通过引入注意力机制强化符号与图像之间的关系,不仅有效地提高分类准确率,而且可较大幅度提升产品图像检索性能。
Apr, 2017
本文提出了一种多通道的方法,既利用场景文本和视觉通道提取和编码图像信息,又建模它们之间的相互作用,生成具有更丰富语义的上下文联合嵌入,并在检索和分类任务上展示了其有效性。
May, 2019
研究了如何通过关键词提取,实现在线广告投放中通过短文本查询获得相关广告图片。借助广告图像查询日志,VisualTextRank 算法成功解决了该问题,它通过提取广告文本(或文本增强版本)中的关键词来生成广告图片查询,显著提高了图片搜索准确度达 11%。
Aug, 2021
本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理,在 Con-Text 和 Drink Bottle 数据集中,在细粒度图像分类和图像检索任务中显著优于之前的最新技术。
Sep, 2020
通过将视频内容拆分为检测到的物体、粗糙的场景结构、物体统计和通过的注视点识别的活动物体,我们测量了每个信息通道的重要性,并发现相比于其它场景元素,通过眼动追踪识别的活动物体和场景结构更好地编码情感信息。从而得出广告情感不仅仅取决于叙述和巧妙使用语言和社交暗示,而是受到视觉信息转化的影响的研究结果。
Aug, 2018
本文通过使用预训练的 VLM(基础视觉语言模型)进行第一次实证研究图片广告的理解。在此过程中,我们发现了适应这些 VLM 到图像广告理解中的实际挑战,并提出了一种简单的特征适应策略来有效融合图像广告的多模态信息,并进一步强化其对真实世界实体的知识。希望我们的研究能引起更多人对与广告行业广泛相关的图片广告理解的关注。
May, 2023
本文提供了一种新颖的模型,使用 PHOC 描述符构建一组文本词袋以及 Fisher 向量编码,以处理文本与视觉数据之间的内在关系,从而在图像细分类和图像检索任务中获得最先进的结果。
Jan, 2020
本文探讨了将视觉信息与文本表示相结合的模型,通过 comprehensive ablation studies,我们提出了一种简单但表现突出的架构,相对于其他的 multimodal approaches,在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时,也改进了与图像相关的文本数据集的最新成果。
May, 2017