帮助视障人士拍摄更高质量的照片
本文介绍一种新的数据集: LIVE In the Wild Image Quality Challenge Database,旨在解决已有的图片质量数据库由于受控条件下被损坏无法很好地反映真实情况的问题,采集了大量真实环境下采集的图片,并通过在线众包系统进行了大规模的主观评估研究,为盲目的图像质量评估算法提供基础研究和深入分析。
Nov, 2015
本研究介绍了一个新的大规模数据集,将图像质量问题的评估与图像字幕和视觉问答两个实际任务联系起来,并发挥了关键作用,包括新问题和算法,以决定图像是否足够质量以对其进行字幕制作,并确定图像包含的质量缺陷以及决定视觉问题是否无法回答,通过公开分享数据集和代码来促进未来的这项工作扩展。
Mar, 2020
本文介绍了一种名为 SLIQUE 的新型盲目图像质量评估 (BIQA) 模型,该模型采用联合视觉 - 语言和视觉对比表示学习框架,通过获取关于图像语义内容、畸变特征和外观属性的高级知识来进行质量评估。为了训练 SLIQUE,我们开发了一种系统的方法来构建一个首个具有所有三类质量相关文本注释的大型图像数据库 TADAC。TADAC 数据库拥有超过 160 万张图像,用文本描述它们的语义内容、畸变特征和外观属性。构建 TADAC 的方法和数据库本身将特别有助于利用视觉 - 语言建模进行高级图像质量评估应用。大量实验结果显示,SLIQUE 在性能上优于现有技术,证明了其设计原理的完整性和实现的有效性。
Jun, 2024
提出了一种简单而有效的图像字幕生成框架,该框架可以确定图像的质量并通知用户有关任何缺陷的原因。该框架通过训练和评估低质量图像检测模型,并尝试解释缺陷原因,从而提高了图像字幕的生成能力,对视力受损的人有帮助。
Nov, 2022
本文通过构建一个首个主观 UGC 直播视频质量数据库并开发一个有效的评估工具来解决 UGC Live VQA 问题,并基于所构建的数据库开发了一个多维 VQA 评估器以从语义、失真和动态方面衡量 UGC 直播视频的视觉质量。实验结果表明,MD-VQA 在我们的 UGC Live VQA 数据库和现有压缩 UGC VQA 数据库上均实现了最先进的性能。
Mar, 2023
本综述对盲图像质量评估 (BIQA) 领域的最新发展和新兴趋势进行了全面分析和讨论,包括专注于特定畸变和通用方法的手工制作 BIQA、采用监督和无监督学习技术的深度学习 BIQA,以及考虑视觉与音频、视觉与文本模态之间相互作用的多模态质量评估方法。同时,还探讨了代表性的 BIQA 数据库,包括合成和真实畸变。我们相信,本综述对视觉质量社区的最新进展和新兴趋势提供了有价值的理解。
Dec, 2023
为了帮助视障人士更好地分享社交网络的照片,我们将最先进的计算机生成描述结合到 Facebook 的图片分享功能中,并通过采访和实验评估了功能。我们从自我揭示和自我呈现理论的角度讨论了这些发现,并提出了能够更好地支持视障人士视觉内容分享的计算机视觉研究方向。
May, 2018
本研究旨在通过开发一种新的视频质量评估框架 1stepVQA,通过利用自然视频和混合失真视频的统计规律,更准确地预测压缩后视频的质量,并采用一种新的视频数据库,其中包括 (通常是失真的) UGC 视频参考和大量压缩版本的视频。
Apr, 2020
本研究提出一种结合图像分析方法和神经语言模型的方法,结合密集字幕技术和一组筛选器生成网络研讨会图像上下文信息,以生成高度可解释且聚焦于相关信息的描述,以应对视觉障碍个体面临的信息获取问题。
Feb, 2022
通过提取 HVS 的视频感知表示,并通过测量其在感知领域中的表示方式的直线程度和紧凑性来量化视频的自然度和内容连续性,我们提出了一种评估视频临时失真的 TPQI 指标,并证明它对任何数据集都有可申请性,即使在评估具有大的时间变化的视频时也有适用性,TPQI 可以实现与空间质量度量相当的性能甚至更加有效的评估。
Jul, 2022