本文介绍了一种基于 VizWiz 数据集和训练于神经网络算法之上的图像字幕生成系统,旨在实现对盲人等特殊群体的辅助,为提供正面社会影响的机器学习计算机视觉领域生产技术迈出了一步。
Dec, 2020
该研究提出了第一个目标导向 VQA 数据集 VizWiz,通过 blind people 所拍摄的图像和口述的问题构建数据集,旨在鼓励更多的社区开发更广泛的算法帮助盲人进行视觉问题的回答和解决。
Feb, 2018
本研究介绍了一个新的大规模数据集,将图像质量问题的评估与图像字幕和视觉问答两个实际任务联系起来,并发挥了关键作用,包括新问题和算法,以决定图像是否足够质量以对其进行字幕制作,并确定图像包含的质量缺陷以及决定视觉问题是否无法回答,通过公开分享数据集和代码来促进未来的这项工作扩展。
Mar, 2020
该研究创建了一个新的数据集 TextCaps,涉及 28k 张图片和 145k 个标题,用于挑战计算机视觉模型识别图像中的文本,与视觉环境进行关联,并决定要复制或释义文本的哪个部分。研究表明,这个新的数据集提供了许多前所未有的技术挑战。
本研究提出用 AoANet 和指针 - 生成机制来改进图像字幕视频,实现文本检测和复制,提高图像字幕性能从而更好地帮助视力受损人士理解环境。
May, 2021
本研究扩展了数据集,提供了第一个越南语图像字幕数据集(UIT-ViIC),该数据集包含 19,250 个越南语字幕和 3,850 张图片,我们在深度神经网络模型上对其进行了评估并与英语数据集和其他两个越南语数据集进行了比较。
Feb, 2020
图像字幕生成是一项计算机视觉任务,涉及为图像生成自然语言描述,本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。
Aug, 2023
研究通过使用新的包含视觉图像和口头描述的数据集,比较了人类在自由观看和图像描述任务中的注意力差异以及注意力部署机制,并分析了软注意机制与人类注意力之间的相似性。最终表明人类注意力与当前的软注意机制仍存在较大差距,并且将软注意机制与视觉显著性进行集成,可以在 Flickr30k 和 MSCOCO 基准测试中显著提高模型的性能。
Mar, 2019
介绍了一个来自摄影师的 few-shot localization 数据集,包括近万个分类为 100 个类别的图像分割,在人们拍摄的 4500 张图像中,我们的数据集是第一个定位物体的孔隙、显示对象的尺寸范围很大,并且我们的对象中文字出现的比例是其他数据集的 5 倍以上,但是算法难以定位到具有孔隙、非常小和非常大的对象以及没有文字的对象。
Jul, 2022
本论文介绍了一种文本视觉背景数据集,用于改进现代图像描述系统,通过融合与场景相关的文本信息,提高图像描述的准确性及语义关联性。
Jan, 2023