AVCap: 借助音频-视觉特征作为文本令牌进行字幕生成

Jul, 2024

AVCap: 借助音频-视觉特征作为文本令牌进行字幕生成

AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning

Jongsuk Kim, Jiwon Shin, Junmo Kim

TL;DR最近几年，表征学习和语言模型的进展推动了自动字幕（AC）技术的发展，使得生成人类级别的描述成为可能。利用这些进展，我们提出了AVCap，一种音频视觉字幕框架，是一种简单但功能强大的基准方法，适用于音频视觉字幕。AVCap通过将音频视觉特征作为文本标记来进行设计，这不仅在性能上有很多优势，也在模型的可扩展性和可伸缩性方面有所表现。AVCap围绕着三个关键维度进行设计：最佳音频视觉编码器架构的探索、根据生成文本的特征调整预训练模型的自适应性，以及调查融合模态在字幕生成中的有效性。我们的方法在所有指标上均优于现有的音频视觉字幕方法，相关代码可在此https URL中获得。

Abstract

In recent years, advancements in representation learning and language models have propelled automated captioning (AC) to new heights, enab

发现论文，激发创造

TextCaps：一种带有阅读理解的图像字幕数据集

该研究创建了一个新的数据集TextCaps，涉及28k张图片和145k个标题，用于挑战计算机视觉模型识别图像中的文本，与视觉环境进行关联，并决定要复制或释义文本的哪个部分。研究表明，这个新的数据集提供了许多前所未有的技术挑战。

Mar, 2020

使用学习的分段单元进行无文本图像合成语音

该研究提出了一种直接合成流利、自然发音的图像口述说明语音的模型，该模型不需要自然语言文本作为中间表示或监督来源，而是通过一组离散的、子词语音单元将图像说明模块和语音合成模块连接起来，这些语音单元是通过自我监督的视觉定位任务发现的。研究人员在Flickr8k口述说明数据集上进行了实验，并针对流行的MSCOCO数据集收集了一组新的口述说明语音语料库，证明了所生成的说明语音也捕捉到了它们所描述的图像的多样视觉语义。研究人员研究了几种不同的中间语音表示，并通过实验证明，这些表示必须满足几个重要的属性，才能作为文本的替代品。

Dec, 2020

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

ClipCap: 图像字幕的 CLIP 前缀

本文使用CLIP编码作为前缀，利用简单的映射网络，然后微调语言模型以生成图像标题，无需额外的注释或预训练，有效地为大规模和多样化的数据集生成有意义的标题。同时，我们证明了我们的模型在有挑战性的概念标题和nocaps数据集上取得了可比较的结果，同时更简单、更快、更轻。

Nov, 2021

具有自适应视听关注的视觉感知音频字幕

本文提出了一种基于视觉感知的音频字幕生成方法，将来自视频的视觉信息整合到音频字幕系统中，采用音视频关注机制自适应地整合音频和视觉信息，显著提高了音频字幕系统的性能。

Oct, 2022

PromptCap：基于提示的任务感知图像字幕生成

研究了通过引入PromptCap这一基于控制生成描述的图像标题模型，用于解决直接使用通用标题生成模型缺乏对视觉细节描述的问题，提高了知识型视觉问答任务的准确性。

Nov, 2022

利用大型语言模型将视觉数据融合到丰富的图像标题中的FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像-文本检索。

May, 2023

探索音频在视频字幕中的作用

本研究提出了一种音视频框架，利用原始音频信号学习，通过 Modality Balanced Pre-training 优化模型，且采用局部和全局融合机制进行信息交换，以提高视频字幕生成的性能。

Jun, 2023

多单帽编码：用于零-shot 多语言视觉字幕的自动编码提示

多场景和多语言的视觉描述生成中，我们提出了一种简单而有效的零样本方法MultiCapCLIP，它可以在不需要标注视觉-描述对的情况下，为不同的场景和语言生成视觉描述，并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为4.8%和21.5%的绝对改进。

Aug, 2023

FlexCap: 在图像中生成丰富、本地化和灵活的标题

我们介绍了一种多功能的“灵活字幕”视觉语言模型（VLM），能够生成长度各异的区域特定描述。该模型FlexCap训练用于为输入边界框生成长度条件化的字幕，从而控制其输出的信息密度，从简要的物体标签到详细的字幕不等。通过创建大规模的训练数据集，从带字幕的图像开始，我们实现了这一灵活字幕的功能，并展示了其在密集字幕任务、视觉问答和对象检测等领域具有广泛应用的优越性能。

Mar, 2024