为视力受损者描述图像的认知和视觉细节：生成包容段落的方法

Feb, 2022

为视力受损者描述图像的认知和视觉细节：生成包容段落的方法

Describing image focused in cognitive and visual details for visually impaired people: An approach to generating inclusive paragraphs

PDF

Daniel Louzada Fernandes, Marcos Henrique Fonseca Ribeiro, Fabio Ribeiro Cerqueira, Michel Melo Silva

TL;DR本研究提出一种结合图像分析方法和神经语言模型的方法，结合密集字幕技术和一组筛选器生成网络研讨会图像上下文信息，以生成高度可解释且聚焦于相关信息的描述，以应对视觉障碍个体面临的信息获取问题。

Abstract

Several services for people with visual disabilities have emerged recently due to achievements in assistive technologies and artificial intellige

visual disabilities assistive technologies artificial intelligence image context webinars

发现论文，激发创造

多模态图像字幕生成（面向视觉障碍人士）

本研究提出用 AoANet 和指针 - 生成机制来改进图像字幕视频，实现文本检测和复制，提高图像字幕性能从而更好地帮助视力受损人士理解环境。

May, 2021

视觉问答 2020 挑战赛：图像字幕作为一种辅助技术的经验教训

本文介绍了一种基于 VizWiz 数据集和训练于神经网络算法之上的图像字幕生成系统，旨在实现对盲人等特殊群体的辅助，为提供正面社会影响的机器学习计算机视觉领域生产技术迈出了一步。

Dec, 2020

高效图像探索与用户引导图像标题生成的视觉分析

运用预训练的大规模语言 - 图像模型，本文尝试解决可视化分析中的两个问题：大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题，我们能深入了解视觉内容的语义基础，并发现数据偏差。同时，通过展示视觉内容与文本标题之间的关联，揭示了预训练的语言 - 图像模型在标题生成能力上的不足，并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。

Nov, 2023

生成描述性图像段落的分层方法

本文提出一种生成整段文字描述图片的方法，相比仅仅用一句话进行描述，该方法能够提供更加细致以及连贯的故事情节。该方法使用了分层递归神经网络对图片中的语义区域以及自然语言进行建模并生成整段文字。在实验中该方法被证明是较为有效的。

Nov, 2016

面向盲人和视障人士的实时自我的运动段落字幕生成在 RGB-D 影院图像中的研究

通过图像字幕和分割，本研究提出了一种帮助盲人和视觉受损人士了解和重建环境的方法，该方法提供了与他们相关的区域和对象的位置描述（左、右、前），以及区域之间的位置关系，通过将解决方案应用于 TS-RGBD 数据集，旨在帮助他们访问戏剧表演。

Aug, 2023

在视觉环境中朝着任务理解

该论文探讨了如何利用卷积神经网络和任务层次结构本体对视觉图像中的真实世界任务进行理解并生成任务描述。

Nov, 2018

新闻图片标题生成的视觉感知上下文建模

新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理，并超越之前的最佳性能表现。

Aug, 2023

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024