VILA:利用视觉语言预训练学习用户评论中的图像美学
为了更深入地认识审美,本文提出了一种神经审美图像审阅者模型,可以不仅为图像提供审美评分,还能生成解释评分原因的文本描述。通过多任务学习,该模型可以评估审美图像并以端到端的方式产生评论。研究结果表明,该模型在 AVA-Reviews 数据集上具有优异的表现,可以与人类视觉感知相一致。
Feb, 2018
图像质量评估和图像美学评估的统一视觉语言预训练 (UniQA) 方法能够同时提高这两个任务的性能并展现优异的无需训练样本和少标签图像评估能力。
Jun, 2024
本文介绍了如何通过使用基于网站提供的图片和嘈杂的评论的自动清洗策略创建一个用于美学图像标题生成的基准数据集(AVA-Captions)。同时,还介绍了一种概率的标题过滤方法,以及利用美学属性间的潜在关联性进行卷积神经网络(CNN)特征提取器的训练的策略。该策略是弱监督的,并可用于学习丰富的美学表示,无需昂贵的标注。最后,文章通过自动度量和主观评价展示了所提出贡献的全面分析。
Aug, 2019
通过可学习的查询(IAA-LQ)方法,从预训练的图像特征中提取美学特征,对图像进行美学评估,在真实世界数据上表现优于最先进的方法 2.2%的 SRCC 和 2.1%的 PLCC。
Sep, 2023
利用多模式学习查询 (MMLQ) 从多模式预训练特征中提取与美学相关的特征,实验结果表明其在多模式图像美学评估方面取得了新的最优性能,SRCC 和 PLCC 分别超过先前方法 7.7% 和 8.3%。
May, 2024
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
本文通过自监督特征学习的视角重新探讨了图像审美评估问题,并针对编辑操作设计了两个新颖的预训练任务,实现了从图像中提取审美感知特征。在三个基准数据集上进行的实验表明,该方法能够有效地提取特征并且超越了其他预训练模式,并达到了使用 ImageNet 1000 万标签的监督方法的可比较结果。
Nov, 2019
通过提出统一多模态图像审美评估(UNIAA)框架,包括带有视觉感知和语言能力的多模态大型语言模型(MLLM)UNIAA-LLaVA 以及一个全面的基准 UNIAA-Bench,本文将图像审美评估(IAA)的成本降低,并通过解决现有数据集转化问题,在多个审美水平上验证了 UNIAA 的有效性和合理性。
Apr, 2024
本文提出了 Reddit Photo Critique Dataset(RPCD),包含 74K 的图像和 220K 条评论,该数据集不同于以往的计算机美学数据集,主要体现在三个方面:(i)数据集的大规模和评论中批评图像不同方面;(ii)大多数为 UltraHD 图像;(iii)可通过自动流水线轻松扩展到新数据。本文通过情感评价来评估视觉刺激的美学质量,并表明情感极性与两个审美评估基准可用的审美判断正相关,在此基础上,将评论的情感分数用作图像排名的目标。
Jun, 2022
本文介绍了一种通过文本对图像进行审美属性评估的方法,提出了一种新的图像审美评估公式,即预测每个属性的审美特征标题以及每个属性的审美得分,并介绍了一种新的数据集 DPC-Captions。我们使用特殊设计的 AMAN 模型来预测 5 个审美属性的标题和每个属性的数值评估,证明了我们的方法优于传统的 CNN-LSTM 模型和现代的 SCA-CNN 模型。
Jul, 2019