视频问题回答的视频图变换器
我们提出了一种名为 GRT 的图形关系 Transformer 方法,它使用边缘信息来计算转换器中图形关注操作,它在视觉问答任务中取得了很好的效果。
Nov, 2021
提出了一个 Dual-Visual Graph Reasoning Unit (DualVGR) 网络,在视频问答中实现可解释的查询惩罚模块同时捕捉外观和运动特征之间的关系,在 MSVD-QA 基准数据集上取得了最佳性能.
Jul, 2021
本文提出了一种基于时域金字塔变换器的多模交互模型,用于视频问答,实现了问题语义的建立和视频信息的推断,并在三个视频问答数据集上通过了广泛的实验证明了该方法相较于现有技术的卓越表现。
Sep, 2021
为了避免手动注释,提出了利用自动交叉模态监督生成视频问答数据集的方法,通过使用问题生成变形器从语音转录中生成问题 - 答案对,然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器,生成如何 VQA69M,WebVidVQA3M 和 iVQA 等不同数据集,结果表明在多个数据集上其结果优秀。
May, 2022
本文提出一种多模态图变换器,它利用了文本和视觉数据的多模态信息,并通过结构化学习和图神经网络的方法对自注意力进行约束以提高推理能力,适用于需要跨多个模态执行推理的问题回答任务。我们通过在 GQA,VQAv2 和 MultiModalQA 数据集上进行实验来验证这种方法的有效性,表明多模态图变换器优于 Transformer 模型基线。
Apr, 2023
QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法,通过将问题感知能力直接嵌入到视觉编码器中,实现动态视觉特征,并且可以有效地应用于各种多模态架构,提高对视觉和场景文本的理解能力。
Feb, 2024
本文提出了一种基于 Transformer 的视觉定位框架 TransVG,通过建立多模态对应关系,实现使用简单 Transformer 编码器层替代复杂的融合模块,在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。
Apr, 2021
VideoGPT 是一种简单的架构,利用 VQ-VAE 学习离散化的原始视频的下采样离散潜在表示,并使用类似于 GPT 的简单架构来自回归地模拟其离散潜在分布,以帮助生成高保真的自然视频。
Apr, 2021
本研究尝试通过博弈论的交互策略来实现细粒度的视频问答任务中的视觉语义对齐,无需过多的标注,相比现有方法,在长期和短期视频问答数据集上的效果有显著提升,并具有良好的泛化能力和在有限数据上的并行收敛能力。
May, 2023
本文提出了一种名为 Bridge to Answer 的新方法,通过利用异构交叉模式图的充分图交互来推断有关给定视频的问题的正确答案,通过学习问题调节的视觉图,对视觉节点使用问题 - 视觉交互来包含视觉和语言线索,并通过将问题图作为中间桥梁来将两个互补的视觉信息放在一起,使可靠的信息传递,以生成适当的答案,从而证明了该方法在视频问答方面提供了有效的上乘表现。
Apr, 2021