盲人拍摄的图像字幕

Feb, 2020

Captioning Images Taken by People Who Are Blind

Danna Gurari, Yinan Zhao, Meng Zhang, Nilavra Bhattacharya

TL;DR通过观察实际用户的需求，作者介绍了第一个适合盲人用户需求的图像说明数据集，检验数据集特征并比较其和其他数据集的不同，同时研究最新的图像说明算法在如此数据集中的挑战。

Abstract

While an important problem in the vision community is to design algorithms that can automatically caption images, few publicly-available datasets for algorithm development directly address the interests of real u

image captioning dataset blind users algorithm development vision community

发现论文，激发创造

视觉问答 2020 挑战赛：图像字幕作为一种辅助技术的经验教训

本文介绍了一种基于 VizWiz 数据集和训练于神经网络算法之上的图像字幕生成系统，旨在实现对盲人等特殊群体的辅助，为提供正面社会影响的机器学习计算机视觉领域生产技术迈出了一步。

Dec, 2020

VizWiz 大挑战：为盲人回答视觉问题

该研究提出了第一个目标导向 VQA 数据集 VizWiz，通过 blind people 所拍摄的图像和口述的问题构建数据集，旨在鼓励更多的社区开发更广泛的算法帮助盲人进行视觉问题的回答和解决。

Feb, 2018

评估现实世界问题图片质量问题

本研究介绍了一个新的大规模数据集，将图像质量问题的评估与图像字幕和视觉问答两个实际任务联系起来，并发挥了关键作用，包括新问题和算法，以决定图像是否足够质量以对其进行字幕制作，并确定图像包含的质量缺陷以及决定视觉问题是否无法回答，通过公开分享数据集和代码来促进未来的这项工作扩展。

Mar, 2020

TextCaps：一种带有阅读理解的图像字幕数据集

该研究创建了一个新的数据集 TextCaps，涉及 28k 张图片和 145k 个标题，用于挑战计算机视觉模型识别图像中的文本，与视觉环境进行关联，并决定要复制或释义文本的哪个部分。研究表明，这个新的数据集提供了许多前所未有的技术挑战。

Mar, 2020

多模态图像字幕生成（面向视觉障碍人士）

本研究提出用 AoANet 和指针 - 生成机制来改进图像字幕视频，实现文本检测和复制，提高图像字幕性能从而更好地帮助视力受损人士理解环境。

May, 2021

UIT-ViIC: 越南图像字幕第一次评估的数据集

本研究扩展了数据集，提供了第一个越南语图像字幕数据集（UIT-ViIC），该数据集包含 19,250 个越南语字幕和 3,850 张图片，我们在深度神经网络模型上对其进行了评估并与英语数据集和其他两个越南语数据集进行了比较。

Feb, 2020

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

图像字幕中的人类注意力：数据集和分析

研究通过使用新的包含视觉图像和口头描述的数据集，比较了人类在自由观看和图像描述任务中的注意力差异以及注意力部署机制，并分析了软注意机制与人类注意力之间的相似性。最终表明人类注意力与当前的软注意机制仍存在较大差距，并且将软注意机制与视觉显著性进行集成，可以在 Flickr30k 和 MSCOCO 基准测试中显著提高模型的性能。

Mar, 2019

VizWiz-FewShot: 视觉障碍人士拍摄的图像中物体定位

介绍了一个来自摄影师的 few-shot localization 数据集，包括近万个分类为 100 个类别的图像分割，在人们拍摄的 4500 张图像中，我们的数据集是第一个定位物体的孔隙、显示对象的尺寸范围很大，并且我们的对象中文字出现的比例是其他数据集的 5 倍以上，但是算法难以定位到具有孔隙、非常小和非常大的对象以及没有文字的对象。

Jul, 2022

图像字幕视觉语义关联数据集

本论文介绍了一种文本视觉背景数据集，用于改进现代图像描述系统，通过融合与场景相关的文本信息，提高图像描述的准确性及语义关联性。

Jan, 2023