文本驱动的少样本领域自适应视觉融合事件检测
本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。
May, 2022
本研究提出了一种基于文本引导的多模态图像融合方法,利用文本描述的高级语义结合红外和可见光图像的语义信息,为目标检测任务提供了更准确和鲁棒的结果。通过使用代码本来增强对融合动态的简明直观表达,并通过双层优化策略同时优化融合和检测问题,本研究取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。
Dec, 2023
使用文本生成模型和扩散模型,本研究提出了一种用于创建新的标记事件数据集的方法,通过合成事件帧直接从文本提示生成平滑的移动对象事件流。根据不同文本语句,该模型能够生成真实人体动作的逼真事件序列,其分类准确率在 42% 至 92% 之间,展示出合成事件数据集的能力。
Jun, 2024
本研究提出了一种多模态方法,可以在单个目标追踪中融合来自帧域和事件域的视觉线索以提高其性能,并通过一种新颖的设计的跨域注意方案有效地和自适应地结合有意义的信息。我们的方法利用自适应平衡方案,其中可以平衡两种领域的贡献。实验证明,所提出的方法的效果比最先进的基于帧的跟踪方法至少提高了 10.4%和 11.9%,并且有效性得到了充分的验证。
Sep, 2021
本篇论文介绍了一种新的视频多媒体事件提取(Video M2E2)任务以及两个创新组件,用于构建该任务的第一个系统。该方法能够从视频和文本文档中提取结构化事件信息,未来将会公开发布包括 860 对视频 - 文章对的新基准。实验结果证明了该方法在新基准数据集上的有效性。
Sep, 2021
本研究提出了多模态事件关系的新任务,并开发了一个大规模数据集和一种基于外部知识库的弱监督多模态方法,为人工智能系统实现媒体理解和跨媒体事件关系建立提供了支持。
Jun, 2022
本文主要介绍了一种将人名加入生成文本的新方法,通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型,我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的,我们修改了之前的多模态框架,接受来自任意数量的辅助分类器提供的相关信息。同时,我们创建了一个新的图像 - 标题数据集,名为 PAC,这个数据集包含了一些知名人物的图像和对这些图像的描述,这些描述中包含了人名。
Jul, 2022
利用高级语义,通过视觉 - 语言模型建立文本与图像信号之间的粗粒度关联机制,并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态,提出了一种以文本为导向的融合方法,并释放了一个文本注释的图像融合数据集 IVT 来促进其实施和在研究社区的采用。大量实验证明我们的方法(TextFusion)在传统的基于外观的融合方法上始终表现优异。
Dec, 2023
提出了一种名为 E-CLIP 的框架,它通过引入新颖的事件编码器和文本编码器,以及原始图像编码器,采用层次三重对比对齐 (HTCA) 模块来优化相关性,实现三种模态之间的知识传递,并在 N-Caltech 数据集上在微调和少样本设置下将性能提升了 3.94% 和 4.62%。此外,E-CLIP 可以灵活地扩展到使用文本或图像查询的事件检索任务。
Aug, 2023