适用于视力受损人士的质量不敏感图像字幕技术

IJCAIApr, 2023

适用于视力受损人士的质量不敏感图像字幕技术

Quality-agnostic Image Captioning to Safely Assist People with Vision Impairment

Lu Yu, Malvina Nikandrou, Jiali Jin, Verena Rieser

TL;DR本文提出了一种质量不受限制的框架，通过数据增强、双网络架构和置信度校准，来提高视障人士图像字幕模型的性能和稳健性，并在与 Royal National Institute of Blind People 合作的辅助生活应用中实现了改进的模型。

Abstract

automated image captioning has the potential to be a useful tool for people with vision impairments. Images taken by this user group are often noisy, which leads to incorrect and even unsafe model predictions. In this paper, we propose a →

automated image captioning quality-agnostic framework data augmentation dual network architecture confidence calibration

发现论文，激发创造

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023

多模态图像字幕生成（面向视觉障碍人士）

本研究提出用 AoANet 和指针 - 生成机制来改进图像字幕视频，实现文本检测和复制，提高图像字幕性能从而更好地帮助视力受损人士理解环境。

May, 2021

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

指导图像字幕模型生成更具体的字幕

基于图像的标题生成任务中，我们展示了通过微调自回归标题模型来生成更具体的标题，并且在解码过程中应用语言模型指导，从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。

Jul, 2023

评估现实世界问题图片质量问题

本研究介绍了一个新的大规模数据集，将图像质量问题的评估与图像字幕和视觉问答两个实际任务联系起来，并发挥了关键作用，包括新问题和算法，以决定图像是否足够质量以对其进行字幕制作，并确定图像包含的质量缺陷以及决定视觉问题是否无法回答，通过公开分享数据集和代码来促进未来的这项工作扩展。

Mar, 2020

应用扩散模型进行图像字幕的多模态数据增强

本研究提出了一种基于多模态数据增强技术的图像字幕生成方法，旨在解决图像字幕对齐困难的问题。实验证明，本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集，从而提高模型的训练效率和预测准确性。

May, 2023

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

WeaQA: 通过标题的弱监督使视觉问答更准确

研究如何使用图像和相关描述文本生成合成的 Q-A 对集合，而无需人工标注，同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。

Dec, 2020

基于大规模人类评估的图像标题质量评估

该论文提出了一种基于人类评估和众包数据的图片描述质量评估模型，并证明模型能够有效地检测和滤除低质量的图片描述，从而提高了图片描述系统的用户体验。

Sep, 2019

CVPR2024 NICE 图像字幕挑战的解决方案

本文介绍了一种解决 2024 年 NICE 的 Topic 1 零射击图像字幕挑战的方法，通过检索增强和字幕评分方法有效地增强图像字幕，利用图像字幕模型生成的高质量字幕作为训练数据，利用基于手工模板的大规模视觉 - 语言预训练模型（OFA）执行图像字幕任务，并将字幕级策略与检索增强策略相结合，以生成更高质量、更匹配和语义丰富的字幕。基于这种方法，在排行榜上排名第一，在所有其他指标上都取得了第一名的成绩。

Apr, 2024