CAMERA: 一个用于广告文本生成的多模态数据集和基准
该研究创建了一个大规模的数据集E-MMAD,提出了一种基于结构信息推理的基线方法和忠实度评估指标,以解决当前在线购物广告文案中的文本生成需求,并在所有指标上大幅优于以往的方法。
May, 2022
本研究提出了一种基于用户评论的CTR驱动广告文本生成方法,该方法使用在线A/B测试数据进行对比学习以达到生成更高CTR的广告文本的目的,并针对低资源问题设计了自定义自监督目标。实验结果表明,该方法显著优于当前的方法,并在主要在线度量标准上带来提升。
May, 2022
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了3,600个评分。
Nov, 2022
广告视频对于互联网电子商务领域至关重要,通过简洁的叙事结构,它们可以将特定产品的影响力扩大到广泛的观众,或者作为提高意识的媒介来引起特定问题的关注。本研究提出了一个多模态多语言的基准模型MM-AU,通过收集来自多个网络来源的超过8.4K个视频(147小时),以三个重要维度(主题分类、感知色调转变和社会信息检测)促进对广告的理解,并通过在广告剧本上应用大型语言模型来探索多个零-shot推理基线。此外,我们证明,在多模态变压器模型中利用音频、视频和文本等多种信号,相比单模态方法,可以提高性能。
Aug, 2023
在人工智能领域的演变环境中,图像与文本信息的融合已成为一个关键的领域,引发了图像-文本多模态模型的出现。本文全面回顾了图像-文本多模态模型的发展和现状,探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段,提出了三个不同阶段的分类,根据其引入时间和对学科的影响。此外,根据任务在学术领域的重要性和普及性,对图像-文本多模态模型相关任务进行了五个主要类型的分类,阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就,但仍存在许多挑战和问题。本文深入探讨了图像-文本多模态模型固有的挑战和限制,促进了未来研究方向的探索。我们的目标是提供对图像-文本多模态模型研究现状的全面概述,并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作,推进图像-文本多模态模型社区的发展。
Sep, 2023
通过“跨模态生成”这一视角回顾了关于从文本生成视觉数据的研究,对各种针对输入文本并产生视觉输出的方法进行了比较和对比,并提出了在领域中的常见模板,逐一探讨了图片-文本方法、视频-文本方法、图片编辑、自监督和基于图形的方法。对2016年至2022年在8个机器学习领域的顶级学术会议上发表的研究论文进行了总结,也纳入了一些与所述搜索标准不匹配的相关论文,发现该领域的发表论文数量显著增加,并凸显了研究空白和潜在的研究方向。据我们所知,这是首个系统地从“跨模态生成”的视角来审视文本到图像生成的综述。
Jan, 2024
改进了LenCom-Eval和MARIO-Eval基准测试的OCR效果的训练自由框架, 提供了生成包含长且少见文本序列图像的新方法。
Mar, 2024
多模态评委通过提供反馈来评估图像生成模型的四个关键方面:对齐性、安全性、图像质量和偏见,并发现了近源VLM在平均上提供更好的反馈。
Jul, 2024
本研究旨在解决电子商务中自动生成广告图像质量不佳的问题,提出了一种多模态可靠反馈网络(RFNet)来自动检查生成的图像并提升可用性。通过将RFNet与递归生成过程相结合,并采用创新的一致条件正则化,显著提高了生成图像的可用率,降低了生成过程中的尝试次数,进而提高了生产效率和视觉吸引力。
Aug, 2024
本研究针对自动生成的广告文本质量验证这一实际需求,提出了AdTEC,这是首个从实际广告操作视角评估广告文本的公共基准。我们构建了基于广告代理商实际操作经验的数据集,并定义了五个评估任务,结果显示现有的预训练语言模型在多个任务上已达到实际使用水平,但在某些领域仍然不如人类评估者,说明该领域仍有显著改进空间。
Aug, 2024