具有美学意义的图像字幕生成
本文介绍了如何通过使用基于网站提供的图片和嘈杂的评论的自动清洗策略创建一个用于美学图像标题生成的基准数据集(AVA-Captions)。同时,还介绍了一种概率的标题过滤方法,以及利用美学属性间的潜在关联性进行卷积神经网络(CNN)特征提取器的训练的策略。该策略是弱监督的,并可用于学习丰富的美学表示,无需昂贵的标注。最后,文章通过自动度量和主观评价展示了所提出贡献的全面分析。
Aug, 2019
本文介绍了一种通过文本对图像进行审美属性评估的方法,提出了一种新的图像审美评估公式,即预测每个属性的审美特征标题以及每个属性的审美得分,并介绍了一种新的数据集 DPC-Captions。我们使用特殊设计的 AMAN 模型来预测 5 个审美属性的标题和每个属性的数值评估,证明了我们的方法优于传统的 CNN-LSTM 模型和现代的 SCA-CNN 模型。
Jul, 2019
通过可学习的查询(IAA-LQ)方法,从预训练的图像特征中提取美学特征,对图像进行美学评估,在真实世界数据上表现优于最先进的方法 2.2%的 SRCC 和 2.1%的 PLCC。
Sep, 2023
为了更深入地认识审美,本文提出了一种神经审美图像审阅者模型,可以不仅为图像提供审美评分,还能生成解释评分原因的文本描述。通过多任务学习,该模型可以评估审美图像并以端到端的方式产生评论。研究结果表明,该模型在 AVA-Reviews 数据集上具有优异的表现,可以与人类视觉感知相一致。
Feb, 2018
提出一种基于用户评论的图像审美预测方法,使用视觉 - 语言预训练模型学习图像的审美表现,结合排名适配器模块设计了一种高效的模型适配方法。实验结果表明,该模型在图像美学字幕生成、零样本风格分类和零样本图像审美评价等任务上表现良好,达到了预先训练模型的最佳性能。
Mar, 2023
提出了一种基于问答的新度量方法 QACE 来评估标题,该度量方法在参考标题或源图像上提出问题并检查其内容。该文介绍了 QACE-Ref 和 QACE-Img 两种方法,并提出了基于 Visual-T5 的多模式、无参考和可解释性的视觉问答系统 QACE-Img,相比其他无参考评估度量结果更好。我们将公开预训练模型以计算 QACE。
Aug, 2021
本文提出了一种基于多任务深度模型的自动审美质量评估方法,其中将语义识别任务作为解决自动审美质量评估和语义识别相关问题的关键。该方法基于卷积神经网络,通过一个简单的多任务框架,同时利用美学和语义标签进行监督学习,通过引入任务间关系学习的相关项,进一步提高了审美任务的评估精度。经过对 AVAdataset 和 Photo.netdataset 的实验验证,证明了多任务深度模型在发现有效美学表示方面的重要性,并取得了最先进的结果。
Apr, 2016
介绍了 AICA 的发展历程及其三个主要挑战,即情感差距、感知主观性和标签噪声与缺失。总结和比较了情感特征提取、学习方法以及 AICA 应用的代表性方法。同时,探讨了未来的挑战和应用前景。
Jun, 2021
通过对图像进行微小扰动,本论文提出了一种名为 AICAttack(基于注意力的图像字幕攻击)的新型对抗攻击策略,旨在攻击图像字幕模型。通过引入基于注意力的候选选择机制和微分进化(DE),我们的算法在黑盒攻击的场景中操作,无需访问目标模型的架构、参数或梯度信息,并通过在多个受害模型上的基准数据集上进行的大量实验证明了 AICAttack 的有效性,实验结果表明我们的方法在输出的单词对齐和语义方面超越了目前的领先技术。
Feb, 2024
该研究介绍了一种新的数据驱动的、非参数化的图像质量和美学评估方法,通过提出高效的图像锚点消除了对表达性文本嵌入的需求,在七个现有自监督模型的广泛评估中,我们的方法表现出卓越的性能和鲁棒性,不受数据和预处理流水线的天性的影响,在有限的数据下能与人类评估高度一致,为图像评估提供了简化的解决方案,并对视觉信息的感知提供了深入洞察。
Mar, 2024