利用生成的图像和字幕训练多媒体事件提取
本篇论文介绍了一种新的视频多媒体事件提取(Video M2E2)任务以及两个创新组件,用于构建该任务的第一个系统。该方法能够从视频和文本文档中提取结构化事件信息,未来将会公开发布包括 860 对视频 - 文章对的新基准。实验结果证明了该方法在新基准数据集上的有效性。
Sep, 2021
该研究提出了一个新的任务 —— 多媒体事件抽取 (M2E2),旨在从多媒体文档中提取事件及其参数。研究使用弱监督训练策略,建立多媒体事件抽取的基准测试和数据集,并提出了一种新的方法 WASE,可将文本和视觉数据的语义信息编码到共同的嵌入空间中,并取得了较好的效果。
May, 2020
通过引入统一的模板填充模型,我们的方法可以连接文本和视觉模态,并通过文本提示实现跨本体转移和事件特定语义的整合。在 M2E2 基准上的实验证明了我们方法的有效性,我们的系统在文本 EAE 上超过当前的最佳方法 7% F1,且在多媒体 EAE 方面表现普遍更优秀。
Jun, 2024
使用自我监督目标进行大型基础模型的训练,然后在下游任务中进行微调已成为一种标准程序。我们介绍了多模态注意力融合(MAM)方法,通过零 - shot 范式,实现了从高资源模态(文本和图像)的注意力矩阵到资源受限领域(语音和音频)的知识转移。MAM 可将自动语音识别(ASR)模型的相对字错误率(WER)降低多达 6.70%,将音频事件分类(AEC)模型的相对分类错误率降低 10.63%。在一些数据 / 计算资源可用的情况下,我们提出了可学习的 MAM 方法,用于合并注意力矩阵,进一步将 ASR 的 WER 降低 2.90%,AEC 降低 18.42%,相对于微调方法。
Dec, 2023
本研究提出了多模态事件关系的新任务,并开发了一个大规模数据集和一种基于外部知识库的弱监督多模态方法,为人工智能系统实现媒体理解和跨媒体事件关系建立提供了支持。
Jun, 2022
本文研究了多模态学习中的音频 - 视觉相关性,并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题,通过实验证明了提出的多模态方法优于单模态方法,同时验证了特定功能表示和体系结构设计的选择。
Sep, 2019
该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中,从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题,并创建了一个大规模音频 - 视频字幕数据集,使得使用这个数据集能够训练出性能优异的多模态转换模型,并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能,并且能够实现文本 - 音频预训练,并在音频检索任务中达到最先进的结果。
Apr, 2022
使用 Mutual Information-aware Multimodal Iterated Relational dAta GEneration (MI2RAGE) 方法,通过 Chained Cross-modal Generation (CCG) 促进生成数据的多样性,并利用 teacher network 选择与 ground-truth 标签具有高互信息的有价值的训练样本,相比于直接在合成数据上训练,我们观察到合成文本的 F1 得分提高了 24.06%,合成图像的 F1 得分提高了 26.42%。值得注意的是,我们最好的模型在完全合成图像上训练时,相对于在真实多模态数据上训练的现有最先进模型,在 F1 得分上提升了 3.76%。
Dec, 2023
提出一种基于深度学习的多模态方法,通过有意义的联合嵌入来弥合模型训练中数据不足的信息差距,并通过跨模态数据幻觉框架提出了一个区分性文本条件生成对抗网络,改进了基于 CUB 数据集的一、二、五次学习的模型准确性。
Jun, 2018
本研究提出一种领域特定的、可从少量标注的图文数据训练的、可在缺乏可视化背景下合成图像的视觉联想事件检测方法,实验结果表明,在 M2E2 基准数据集上,该模型的性能超过了现有的最先进模型达 11 个百分点。
May, 2023