RECAP 是一种新颖有效的音频字幕系统,通过从数据存储中检索与输入音频类似的其他字幕来生成字幕,并且无需额外的微调即可适用于任何领域。
Sep, 2023
本文提出一种使用编码器 - 解码器架构的音频标题系统,并引入自上游音频相关任务或大规模领域内数据集的转移学习来缓解数据稀缺性带来的问题。通过强化学习将评估指标纳入模型优化中,可以解决由 “教师强制” 训练策略引起的 “曝光偏差” 和评估指标与损失函数之间的不匹配问题。这种方法在 DCASE 2021 Task 6 中排名第三,并进行了消融研究来研究所提出系统中的每个要素对最终性能的贡献。结果表明,提出的技术显着提高了评估指标的得分,但强化学习可能对生成的标题质量产生不利影响。
Aug, 2021
我们提出使用 “对齐视觉标题” 作为一种机制,将视频中的信息整合到基于检索增强生成的聊天助手系统中,这些标题能够以文本形式描述视频的视觉和音频内容,并且易于理解和加入到大型语言模型的提示中,同时也需要较少的多媒体内容来插入到多模态语言模型的上下文窗口中,我们还为常见的检索增强生成任务构建了一个数据集并描述了自动评估程序以促进该领域的进展。
May, 2024
这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕,并且通过使用双编码器来对音频和图像进行编码,使用掩码边界软最大损失对这些模型进行微调,并在 Flickr8k 音频字幕语料库上实现了最新的结果。
Sep, 2019
本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法,提出了一种名为 MusCALL 的框架,采用双重编码器架构进行跨模态学习,实现音频和描述语句的对齐,生成用于文本到音频和音频到文本检索的多模式嵌入,实验表明我们的方法在音频与文本检索任务中比基线方法表现更好,并且可成功扩展应用于流派分类和自动标签的零样本转移场景。
Aug, 2022
本论文介绍了一个多模态卷积神经网络视频字幕框架,通过引入模态感知模块,探索了视听交互对视频理解的影响,并证明该可解释模型在情况选择时取得了可比较的性能。
Dec, 2018
提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法,该方法联合处理图像和从 Datastore 检索到的字幕,实现了检索增强的语言生成,该方法名为 EXTRA。实验结果表明,检索足够数量的字幕可以提高字幕生成的质量。
Feb, 2023
本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型,使用预训练的 ResNet38 来初始化预训练关键字编码器,并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码,实验证明该模型在 Clotho 数据集上达到了最先进的性能。
Oct, 2021
本文介绍了一种新颖的歌词对齐系统,使用对抗学习导出跨模态嵌入,不仅训练简单、能使用弱标注数据、学习强大的文本模型,而且可用于多语言和获得了标准数据集下平均绝对误差小于 0.2 秒的最佳结果。
Jun, 2023
本文介绍了一种音频和歌词之间深度序列相关性的跨模态学习架构,其中涉及两个分支的深度神经网络,通过转换到相同的规范空间并利用互模态规范相关分析作为目标函数来计算时间结构的相似性。实验结果证实了所提出跨模态音乐检索的深度相关学习体系结构的有效性。
Nov, 2017