CAMERA: 一个用于广告文本生成的多模态数据集和基准

Sep, 2023

CAMERA: 一个用于广告文本生成的多模态数据集和基准

CAMERA: A Multimodal Dataset and Benchmark for Ad Text Generation

Masato Mita, Soichiro Murakami, Akihiko Kato, Peinan Zhang

TL;DR通过引入重设计任务和构建基准测试集，本文旨在推进自动广告文本生成领域。作者提出了第一个基准数据集CAMERA，并通过多种基线模型的评估实验证明了基准测试集的实用性。此外，文中还讨论了当前任务的现状和未来挑战。

Abstract

In response to the limitations of manual online ad production, significant research has been conducted in the field of automatic ad text generation (ATG). However, comparing different methods has been challenging because of the lack of →

发现论文，激发创造

多模态多结构信息的广告文案生成

该研究创建了一个大规模的数据集E-MMAD，提出了一种基于结构信息推理的基线方法和忠实度评估指标，以解决当前在线购物广告文案中的文本生成需求，并在所有指标上大幅优于以往的方法。

May, 2022

基于CTR的广告文案生成：具有控制的预训练和对比微调

本研究提出了一种基于用户评论的CTR驱动广告文本生成方法，该方法使用在线A/B测试数据进行对比学习以达到生成更高CTR的广告文本的目的，并针对低资源问题设计了自定义自监督目标。实验结果表明，该方法显著优于当前的方法，并在主要在线度量标准上带来提升。

May, 2022

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了3,600个评分。

Nov, 2022

MM-AU: 广告视频的多模态理解

广告视频对于互联网电子商务领域至关重要，通过简洁的叙事结构，它们可以将特定产品的影响力扩大到广泛的观众，或者作为提高意识的媒介来引起特定问题的关注。本研究提出了一个多模态多语言的基准模型MM-AU，通过收集来自多个网络来源的超过8.4K个视频（147小时），以三个重要维度（主题分类、感知色调转变和社会信息检测）促进对广告的理解，并通过在广告剧本上应用大型语言模型来探索多个零-shot推理基线。此外，我们证明，在多模态变压器模型中利用音频、视频和文本等多种信号，相比单模态方法，可以提高性能。

Aug, 2023

图像-文本多模型综述

在人工智能领域的演变环境中，图像与文本信息的融合已成为一个关键的领域，引发了图像-文本多模态模型的出现。本文全面回顾了图像-文本多模态模型的发展和现状，探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段，提出了三个不同阶段的分类，根据其引入时间和对学科的影响。此外，根据任务在学术领域的重要性和普及性，对图像-文本多模态模型相关任务进行了五个主要类型的分类，阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就，但仍存在许多挑战和问题。本文深入探讨了图像-文本多模态模型固有的挑战和限制，促进了未来研究方向的探索。我们的目标是提供对图像-文本多模态模型研究现状的全面概述，并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作，推进图像-文本多模态模型社区的发展。

Sep, 2023

文本到图像跨模态生成：系统综述

通过“跨模态生成”这一视角回顾了关于从文本生成视觉数据的研究，对各种针对输入文本并产生视觉输出的方法进行了比较和对比，并提出了在领域中的常见模板，逐一探讨了图片-文本方法、视频-文本方法、图片编辑、自监督和基于图形的方法。对2016年至2022年在8个机器学习领域的顶级学术会议上发表的研究论文进行了总结，也纳入了一些与所述搜索标准不匹配的相关论文，发现该领域的发表论文数量显著增加，并凸显了研究空白和潜在的研究方向。据我们所知，这是首个系统地从“跨模态生成”的视角来审视文本到图像生成的综述。

Jan, 2024

优化文本到图像生成：走向准确、无需训练的字形增强图像生成

改进了LenCom-Eval和MARIO-Eval基准测试的OCR效果的训练自由框架, 提供了生成包含长且少见文本序列图像的新方法。

Mar, 2024

MJ-Bench: 您的多模态奖励模型真的是进行文本生成图像的好判断器吗？

多模态评委通过提供反馈来评估图像生成模型的四个关键方面：对齐性、安全性、图像质量和偏见，并发现了近源VLM在平均上提供更好的反馈。

Jul, 2024

基于人类反馈的可靠广告图像生成

本研究旨在解决电子商务中自动生成广告图像质量不佳的问题，提出了一种多模态可靠反馈网络（RFNet）来自动检查生成的图像并提升可用性。通过将RFNet与递归生成过程相结合，并采用创新的一致条件正则化，显著提高了生成图像的可用率，降低了生成过程中的尝试次数，进而提高了生产效率和视觉吸引力。

Aug, 2024

AdTEC：评估搜索引擎广告文本质量的统一基准

本研究针对自动生成的广告文本质量验证这一实际需求，提出了AdTEC，这是首个从实际广告操作视角评估广告文本的公共基准。我们构建了基于广告代理商实际操作经验的数据集，并定义了五个评估任务，结果显示现有的预训练语言模型在多个任务上已达到实际使用水平，但在某些领域仍然不如人类评估者，说明该领域仍有显著改进空间。

Aug, 2024