AIGCOIQA2024: AI 生成全方位图像的感知质量评估
本文建立了一个大规模的 AIGC IQA 数据库,用于评估人类对于每个图像的质量、真实性和对应性的视觉偏好,并在该数据库上进行了基准实验来评估几个最先进的 IQA 度量标准的性能。
Jul, 2023
本研究提出了一种新型的基于对抗学习的全景图像虚拟现实图像质量评估方法,通过使用深度网络来考虑全景图像的特性,其中包括新颖的质量评分预测器和人类感知指导器,用于自动预测畸变图像的质量得分,并使用对抗学习将其与人类感知得分进行比较。在全景图像数据集上进行的实验结果表明,本文提出的 VR IQA 指标优于二维 IQA 和现有的 VR IQA。
Apr, 2018
通过考虑 15 个流行生成模型和动态超参数,本研究组织了一项挑战,全面评估人类主观评分、感知质量和文本图像对齐等方面,以创建迄今最大的细粒度 AIGI 主观质量数据库 AIGIQA-20K,并通过基准实验评估 16 个主流 AIGI 质量模型与人类感知之间的相应关系。预期该数据库将推动 AIGC 在视觉领域的进展。
Apr, 2024
人工智能生成内容(AIGC)在近年来迅速增长,其中基于人工智能图像生成的技术因其高效且富有想象力的图像创作能力而受到广泛关注。然而,由于其独特的失真问题,人工智能生成的图片(AIGIs)可能无法满足人们的喜好,因此有必要了解和评估人们对 AIGIs 的偏好。为此,本文首先建立了一个新颖的 AIGIs 图像质量评估(IQA)数据库,称为 AIGCIQA2023+,该数据库提供了人类视觉偏好评分以及从质量、真实性和对应性等三个角度的详细偏好解释。然后,基于构建的 AIGCIQA2023 + 数据库,本文提出了一种名为 MINT-IQA 的模型,该模型可从多个角度对 AIGIs 的人类偏好进行评估和解释。具体而言,MINT-IQA 模型首先从多个角度学习和评估人们对 AI 生成图像的偏好,然后通过视觉语言指令调整策略,MINT-IQA 能够对 AIGIs 的人类视觉偏好进行强大的理解和解释,这可用于反馈以进一步提高评估能力。广泛的实验结果表明,所提出的 MINT-IQA 模型在理解和评估人类对 AIGIs 的视觉偏好方面达到了最先进的性能水平,并且与最先进的 IQA 模型相比在传统 IQA 任务上也取得了竞争性的成果。AIGCIQA2023 + 数据库和 MINT-IQA 模型将会发布以促进未来的研究。
May, 2024
基于人类感知的图像到图像 AIGC 图像质量评估数据库 PKU-I2IQA 的建立,引入两个基准模型:基于无参考图像质量评估的 NR-AIGCIQA 和基于全参考图像质量评估的 FR-AIGCIQA,并通过基准实验比较了两个模型的性能。
Nov, 2023
近年来,图像生成技术迅速发展,产生了大量的人工智能生成图像(AIGIs),然而,这些 AIGIs 的质量不一致,并严重影响了用户的视觉体验。因此,基于人类感知角度评估 AIGIs 质量的 AI 生成图像质量评估(AIGIQA)引起了学者们的广泛关注,然而,现有研究尚未完全探索该领域。本研究通过构建名为 PKU-AIGIQA-4K 的大规模感知质量评估数据库,旨在填补现有研究领域中的关键空白,该数据库兼顾文本到图像和图像到图像的 AIGIs,提出了基于预训练模型的三种图像质量评估方法:无参考方法 NR-AIGCIQA,全参考方法 FR-AIGCIQA 和部分参考方法 PR-AIGCIQA,并利用 PKU-AIGIQA-4K 数据库进行了广泛的基准实验,与当前的图像质量评估方法进行了比较。
Apr, 2024
该研究旨在解决基于文本生成图像的模型中存在的主观质量差异问题并提出了 StairReward 模型评估主观文本图像对齐的一致性,并以此建立了 AGIQA-3K 数据库。
Jun, 2023
通过使用移动设备中的相机图像,增强现实(AR)在旅游推广中越来越受欢迎。然而,游客出现在相机图像中可能会导致相机姿态估计误差,进而产生 CG 不对齐和内容可见性降低的问题。为了避免这个问题,提出了一种不使用实时相机图像的间接 AR(IAR)。在该方法中,首先捕获全景图像,然后预先在图像上合成虚拟物体。用户可以通过查看从合成全景图像中提取的场景来体验 AR,以配合设备的传感器。这样可以实现鲁棒性和高可见性。然而,如果预先捕获的 360 全景图像中的天气条件和季节与体验 AR 时的当前天气条件和季节不同,AR 体验的真实感将降低。为了克服这个问题,我们提出了一种使用移动设备的相机图像来纠正过去全景图像强度和纹理的方法。首先进行语义分割。然后通过全景图像合成和修补来再现当前天空的模式。对于其他区域,通过直方图匹配来修正强度。通过实验证明了所提出方法在各种场景下的有效性。
May, 2024
本研究首次建立了一个大规模的音视频品质评估数据集,用于评估全向视频的音视频质量。通过多模态融合策略,设计了三种基准方法来评估全向音视频的品质,并验证了融合方法在全向体验评估中的有效性。
Jul, 2023
我们提出了一个工具,用于生成具有语义和深度信息的全向图像数据集。这些图像是从采集于虚拟环境中的捕捉集合中合成的,能够提供像素级的关于语义、深度以及摄像头的校准参数的信息,从而为机器学习算法的训练和三维视觉方法的测试提供了像素精度的真实信息。
Jan, 2024