文本驱动的少样本领域自适应视觉融合事件检测

May, 2023

文本驱动的少样本领域自适应视觉融合事件检测

Few-shot Domain-Adaptive Visually-fused Event Detection from Text

Fatemeh Shiri, Farhad Moghimifar, Van Nguyen, Reza Haffari, Yuan-Fang Li

TL;DR本研究提出一种领域特定的、可从少量标注的图文数据训练的、可在缺乏可视化背景下合成图像的视觉联想事件检测方法，实验结果表明，在 M2E2 基准数据集上，该模型的性能超过了现有的最先进模型达 11 个百分点。

Abstract

Incorporating auxiliary modalities such as images into event detection models has attracted increasing interest over the last few years. The complexity of natural language in describing situations has motivated researchers to leverage the related →

event detection visual context data scarcity domain-adaptive few-shot

发现论文，激发创造

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022

从文本到像素：一种针对红外和可见光图像融合的上下文感知语义协同解决方案

本研究提出了一种基于文本引导的多模态图像融合方法，利用文本描述的高级语义结合红外和可见光图像的语义信息，为目标检测任务提供了更准确和鲁棒的结果。通过使用代码本来增强对融合动态的简明直观表达，并通过双层优化策略同时优化融合和检测问题，本研究取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。

Dec, 2023

文本转事件：有条件文本输入的合成事件相机流

使用文本生成模型和扩散模型，本研究提出了一种用于创建新的标记事件数据集的方法，通过合成事件帧直接从文本提示生成平滑的移动对象事件流。根据不同文本语句，该模型能够生成真实人体动作的逼真事件序列，其分类准确率在 42% 至 92% 之间，展示出合成事件数据集的能力。

Jun, 2024

利用帧和事件域联合探测物体轨迹

本研究提出了一种多模态方法，可以在单个目标追踪中融合来自帧域和事件域的视觉线索以提高其性能，并通过一种新颖的设计的跨域注意方案有效地和自适应地结合有意义的信息。我们的方法利用自适应平衡方案，其中可以平衡两种领域的贡献。实验证明，所提出的方法的效果比最先进的基于帧的跟踪方法至少提高了 10.4％和 11.9％，并且有效性得到了充分的验证。

Sep, 2021

视频和文章的联合多媒体事件抽取

本篇论文介绍了一种新的视频多媒体事件提取（Video M2E2）任务以及两个创新组件，用于构建该任务的第一个系统。该方法能够从视频和文本文档中提取结构化事件信息，未来将会公开发布包括 860 对视频 - 文章对的新基准。实验结果证明了该方法在新基准数据集上的有效性。

Sep, 2021

多模态事件图：走向多模态世界的事件中心理解

本研究提出了多模态事件关系的新任务，并开发了一个大规模数据集和一种基于外部知识库的弱监督多模态方法，为人工智能系统实现媒体理解和跨媒体事件关系建立提供了支持。

Jun, 2022

IMAD: 图像增强的多模态对话

该研究提出了一种基于多模态视角的对话系统，并通过构建 IMAD 数据集和进行基线模型训练，证明了其在图像解释、数据集建设和模型表现方面具有潜在优势。

May, 2023

面向多模态视觉语言模型生成非通用文本

本文主要介绍了一种将人名加入生成文本的新方法，通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型，我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的，我们修改了之前的多模态框架，接受来自任意数量的辅助分类器提供的相关信息。同时，我们创建了一个新的图像 - 标题数据集，名为 PAC，这个数据集包含了一些知名人物的图像和对这些图像的描述，这些描述中包含了人名。

Jul, 2022

TextFusion: 揭秘文本语义在可控图像融合中的力量

利用高级语义，通过视觉 - 语言模型建立文本与图像信号之间的粗粒度关联机制，并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态，提出了一种以文本为导向的融合方法，并释放了一个文本注释的图像融合数据集 IVT 来促进其实施和在研究社区的采用。大量实验证明我们的方法（TextFusion）在传统的基于外观的融合方法上始终表现优异。

Dec, 2023

E-CLIP: 通过 CLIP 实现高效标签的事件驱动开放式理解

提出了一种名为 E-CLIP 的框架，它通过引入新颖的事件编码器和文本编码器，以及原始图像编码器，采用层次三重对比对齐 (HTCA) 模块来优化相关性，实现三种模态之间的知识传递，并在 N-Caltech 数据集上在微调和少样本设置下将性能提升了 3.94% 和 4.62%。此外，E-CLIP 可以灵活地扩展到使用文本或图像查询的事件检索任务。

Aug, 2023