自动创造性选择与跨模态匹配

Feb, 2024

Automatic Creative Selection with Cross-Modal Matching

Alex Kim, Jia Huang, Rob Monarch, Jerry Kwac, Anikesh Kamath...

TL;DR通过微调预训练的 LXMERT 模型，我们提出了一种新颖的方法将应用程序图像与搜索词进行匹配，相对于 CLIP 模型和基于 Transformer 模型用于搜索词和 ResNet 模型用于图像的基准线，我们显著提高了匹配准确性。在两组标签上评估我们的方法：给定应用程序的广告主关联（图像，搜索词）对和人类对于（图像，搜索词）对的相关性。对于广告主关联的事实，我们的方法达到 0.96 的 AUC 分数，相对于基于 Transformer+ResNet 的基准线和微调 CLIP 模型提高了 8% 和 14%。对于人工标记的事实，我们的方法达到 0.95 的 AUC 分数，相对于基于 Transformer+ResNet 的基准线和微调 CLIP 模型提高了 16% 和 17%。

Abstract

Application developers advertise their Apps by creating product pages with app images, and bidding on search terms. It is then crucial for app im

发现论文，激发创造

VisualTextRank：基于图结构无监督内容提取技术，用于自动化广告文本到图像搜索

研究了如何通过关键词提取，实现在线广告投放中通过短文本查询获得相关广告图片。借助广告图像查询日志，VisualTextRank 算法成功解决了该问题，它通过提取广告文本（或文本增强版本）中的关键词来生成广告图片查询，显著提高了图片搜索准确度达 11%。

Aug, 2021

跨模态图像-文本检索基准的重新思考

本文针对图文检索中的细粒度语义匹配问题，以MSCOCO-Test-5K和Flickr30K-Test-1K数据集不足的情况为背景，提出了将其重建为MSCOCO-FG和Flickr30K-FG等数据集的方法，并通过模型评估和实验指出了模型在细粒度语义理解方面的不足之处和提升空间。

Apr, 2023

AdSEE：探讨图像风格编辑对广告吸引力的影响

通过在线广告的样式编辑和吸引力增强（AdSEE）的研究，我们探讨了语义编辑对广告图像是否能够影响或改变在线广告的受欢迎程度，并通过大规模数据集的离线和在线测试验证了图像风格与广告受欢迎程度之间的关系。

Sep, 2023

AdBooster: 使用稳定扩散外点法生成个性化广告创意

数字广告中的创意优化对用户满意度有重要影响，本研究介绍了一种基于生成模型和用户兴趣的创意生成方法（GCO）以及使用稳定扩散外推架构的个性化广告创意模型（AdBooster），通过实验证明AdBooster生成的创意相对于默认产品图片更具相关性，具有提高用户参与度的潜力。

Sep, 2023

CAMERA: 一个用于广告文本生成的多模态数据集和基准

通过引入重设计任务和构建基准测试集，本文旨在推进自动广告文本生成领域。作者提出了第一个基准数据集CAMERA，并通过多种基线模型的评估实验证明了基准测试集的实用性。此外，文中还讨论了当前任务的现状和未来挑战。

Sep, 2023

对广告图像与文本进行对齐以实现准确的跨模态赞助搜索

提出了一种简单的对齐网络，通过在广告中映射图像的细粒度视觉部分到相应的文本，实现了跨模态赞助搜索的跨模态对齐和查询-广告匹配，在大商业数据集上，该模型性能优于现有的模型2.57％。

Sep, 2023

实时广告系统中广告和创意的并行排名

广告服务中的创造力是其核心和灵魂。通过AI生成的内容，广告商能够以最小的成本创造大量的创意内容。本文首次提出了一种用于在线平行估计广告和创意排名的新架构，以及相应的离线联合优化模型。在线架构能够进行个性化的创意建模，同时降低总体延迟。CTR估计的离线联合模型允许广告和创意之间进行相互感知和协同优化。我们对比了两种最先进的方法进行了广泛的实验。结果表明，我们的方法在离线评估和真实世界的在线广告平台中都具有响应时间、CTR和CPM方面的有效性。

Dec, 2023

CoMat: 文本到图像扩散模型与图像到文本概念匹配的对齐

提出了CoMat，一种将图像到文本概念匹配机制与端到端扩散模型微调策略相结合的方法，通过利用图像字幕模型衡量图像到文本的对齐性并指导扩散模型重新访问忽略的标记，解决了文本提示与图像之间的对齐不足问题。在两个文本到图像对齐基准测试中，CoMat-SDXL相对于基准模型SDXL表现出色，达到了最先进的性能。

Apr, 2024

深度增强学习：一种全新的图像文本匹配协作方法

图像-文本匹配仍然是一项具有挑战性的任务，由于模态之间异构的语义多样性和三元组内不足的距离可分性。与之前的方法不同，我们旨在通过增强聚类方法中的知识转移来寻求更强大的匹配模型。具体地说，我们提出了一种全新的深度增强学习（DBL）算法，其中锚点分支首先被训练以提供对数据属性的洞察，而目标分支获取更先进的知识以开发出最佳特征和距离度量。通过实验证实，我们的DBL能够在图像-文本匹配领域的各种最新先进模型的基础上取得令人印象深刻且一致的改进，并且优于相关的普遍合作策略，例如常规蒸馏、互联学习和对应学习。此外，我们证实DBL可以无缝集成到它们的训练场景中，并在相同的计算成本下实现卓越性能，从而展示了我们提出的方法的灵活性和广泛适用性。我们的代码可以在此https URL上公开获取。

Apr, 2024

基于风格图标生成的稳定扩散XL微调方法：字幕尺寸的比较

通过显示不同的微调方法，我们展示了如何为Stable Diffusion XL生成具有商业2D图标训练集风格的高质量图标，并且强调了在生成高质量商业图标时需要专门的评估度量和微调方法。

Jul, 2024