零样本视频问答与程序化程序
Q-ViD 是一种简单的视频问答方法,通过使用一个单一的指令感知开放式视觉语言模型(InstructBLIP)来处理视频问答问题,生成视频帧描述,并结合一个大型语言模型(LLM)进行多项选择问答,取得了与当前最先进模型相媲美甚至更高的性能。
Feb, 2024
为了避免手动注释,提出了利用自动交叉模态监督生成视频问答数据集的方法,通过使用问题生成变形器从语音转录中生成问题 - 答案对,然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器,生成如何 VQA69M,WebVidVQA3M 和 iVQA 等不同数据集,结果表明在多个数据集上其结果优秀。
May, 2022
本文介绍了一种基于冻结的双向语言模型的零样本视频问答方法,它使用轻量级的可训练模块将可视化输入与冻结的双向语言模型相结合,通过屏蔽的语言模型进行零样本视频问答推理,相较于目前现有的方法,在包括 LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA 和 TVQA 等各种数据集上,取得了显著的优势,同时在少样本和完全监督的情况下也表现出了有竞争力的结果。
Jun, 2022
VISPROG 是一种神经符号方法,用于解决复杂和组合的视觉任务,所需的仅是自然语言指令,通过生成类似 Python 的模块化程序来实现,每行程序可以调用各种计算机视觉模型,图像处理算法或 Python 函数以产生中间输出,展示了其在 4 个不同的任务上的灵活性 。
Nov, 2022
通过视觉分析和数据编程,本文提出了 VideoPro,一种支持灵活和可扩展的视频数据编程的方法,以减少人力成本并监控模型效果的可视界面。通过提取视频中的可理解事件并利用其作为标签函数的组成部分,我们进一步提出了一种两阶段的模板挖掘算法用于高效的数据标注。通过两个案例研究和专家访谈的验证,证明了我们的方法的效率和有效性。
Aug, 2023
本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集,并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明,在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上,该方法明显优于现有技术。
Dec, 2020
近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战,本研究引入了一种参数高效的方法来解决这些问题,通过结合多模态提示学习和基于 Transformer 的映射网络,在预训练模型的冻结状态下实现。在几个视频问答基准测试中,我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。
Sep, 2023
我们介绍了 LLoVi,这是一个用于长距离视频问答(LVQA)的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型(如 GPT-3.5,GPT-4),结合简单且出奇有效的 LVQA 框架,将短期和长期建模方面分解为两个阶段,从而实现对整个视频的理解和问题的回答。
Dec, 2023
本研究旨在利用视频表示学习技术,通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型,以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而成,训练数据使用了四个新的预训练目标。最终模型 Paprika 在 12 个任务上实现了高达 11.23% 的精度提升。
Mar, 2023