多模态图像字幕生成（面向视觉障碍人士）

ACLMay, 2021

多模态图像字幕生成（面向视觉障碍人士）

Multi-Modal Image Captioning for the Visually Impaired

Hiba Ahsan, Nikita Bhalla, Daivat Bhatt, Kaivankumar Shah

TL;DR本研究提出用 AoANet 和指针 - 生成机制来改进图像字幕视频，实现文本检测和复制，提高图像字幕性能从而更好地帮助视力受损人士理解环境。

Abstract

One of the ways blind people understand their surroundings is by clicking images and relying on descriptions generated by image captioning systems. Current work on captioning images for the visually impaired do n

blind people visual impairment image captioning text detection pointer-generator

发现论文，激发创造

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

为视力受损者描述图像的认知和视觉细节：生成包容段落的方法

本研究提出一种结合图像分析方法和神经语言模型的方法，结合密集字幕技术和一组筛选器生成网络研讨会图像上下文信息，以生成高度可解释且聚焦于相关信息的描述，以应对视觉障碍个体面临的信息获取问题。

Feb, 2022

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

面向多模态视觉语言模型生成非通用文本

本文主要介绍了一种将人名加入生成文本的新方法，通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型，我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的，我们修改了之前的多模态框架，接受来自任意数量的辅助分类器提供的相关信息。同时，我们创建了一个新的图像 - 标题数据集，名为 PAC，这个数据集包含了一些知名人物的图像和对这些图像的描述，这些描述中包含了人名。

Jul, 2022

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

适用于视力受损人士的质量不敏感图像字幕技术

本文提出了一种质量不受限制的框架，通过数据增强、双网络架构和置信度校准，来提高视障人士图像字幕模型的性能和稳健性，并在与 Royal National Institute of Blind People 合作的辅助生活应用中实现了改进的模型。

Apr, 2023

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

通过内容多样性探索实现准确的基于文本的图像描述

本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法，以提高生成说明的多样性和准确性。

Apr, 2021

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023