具有自适应视听关注的视觉感知音频字幕
音频字幕任务与图像和视频字幕任务在本质上相似,但鲜有关注。我们提出了音频字幕的三个愿景:生成文本的流畅性,生成文本对输入音频的忠实度以及听觉可感知性。我们的方法是零样本方法,不通过学习而是通过推理过程来进行字幕生成,其中涉及的三个网络对应三个期望的质量:(i)一个大型语言模型,本文中为 GPT-2,(ii)一个在音频文件和文本之间提供匹配分数的模型,我们使用一种名为 ImageBind 的多模态匹配网络,(iii)一个文本分类器,利用我们自动收集的数据集进行训练,数据集是通过指导 GPT-4 生成可听和不可听的句子而设计的。我们在 AudioCap 数据集上展示了我们的结果,证明了听觉指导明显提高了性能,相比缺乏这一目标的基准系统。
Sep, 2023
提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态,在视频字幕任务中, 首次验证了深度音频特征的卓越性能,该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。
Apr, 2018
本研究提出了一种音视频框架,利用原始音频信号学习,通过 Modality Balanced Pre-training 优化模型,且采用局部和全局融合机制进行信息交换,以提高视频字幕生成的性能。
Jun, 2023
这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕,并且通过使用双编码器来对音频和图像进行编码,使用掩码边界软最大损失对这些模型进行微调,并在 Flickr8k 音频字幕语料库上实现了最新的结果。
Sep, 2019
本文提出了一种新的密集视频字幕方法,它能够利用任何数量的多模态信息来描述事件,并使用自动语音识别系统获得音频和语音模态的文本描述,在将其视为单独的输入与视频帧和相应的音轨一起使用,并利用最近提出的 Transformer 体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在 ActivityNet Captions 数据集上测试了他们的模型,并进行了深入的分析。
Mar, 2020
通过对多模态数据的构建和深度学习模型的训练,本文提出了一种在音频和歌词之间学习对准关系的方法,并通过此方法优化跨模态对齐,并为音乐搜索和推荐提供了理论和实证结果。
Dec, 2022
我们提出使用 “对齐视觉标题” 作为一种机制,将视频中的信息整合到基于检索增强生成的聊天助手系统中,这些标题能够以文本形式描述视频的视觉和音频内容,并且易于理解和加入到大型语言模型的提示中,同时也需要较少的多媒体内容来插入到多模态语言模型的上下文窗口中,我们还为常见的检索增强生成任务构建了一个数据集并描述了自动评估程序以促进该领域的进展。
May, 2024