面向时序视频定位的预训练语言模型参数高效集成
本文提出了一种基于 GPT-2 模型的框架,将视频与文本表示结合成连续、有结构的序列,并利用其 fine-tuning 能力来解决视频对话中的挑战,从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。
Jun, 2020
本文提出基于 adapter 的参数高效迁移学习技术,以 VL-BART 和 VLT5 为例,在图像文本和视频文本基准测试上统一多任务设置,通过权重共享提高 adapter 的效率和性能,在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%,匹配了整个模型微调的性能,同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。
Dec, 2021
近年来,研究人员试图调查 LLM 在处理视频方面的能力,并提出了几种视频 LLM 模型。然而,LLM 在处理视频对齐(VG)方面的能力仍然不清楚,也没有在文献中进行探索。为了填补这一空白,本文提出了 LLM4VG 基准测试,对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG,我们设计了大量实验,检查了两组视频 LLM 模型在视频对齐上的表现:(i)基于文本 - 视频对训练的视频 LLM(标记为 VidLLM),以及(ii)与预训练的视觉描述模型(如视频 / 图像字幕模型)结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法,包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较,并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论:(i)现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走,需要进一步微调这些模型以包含更多的与时间相关的视频任务;(ii)LLM 和视觉模型的组合显示出初步的视频对齐能力,通过采用更可靠的模型和进一步的提示指导,这种能力具有可观的改进潜力。
Dec, 2023
基于 VTG 任务,本研究首先介绍了 VTG-IT-120K 这一高质量的综合指导调整数据集,其涵盖了时刻检索、密集视频字幕生成、视频摘要和视频亮点检测等 VTG 任务;其次,我们提出了一个特别设计的用于 VTG 任务的视频 LLM 模型,VTG-LLM,该模型能够有效地将时间戳知识与视觉标记结合起来,并且引入了一种轻量级、高性能的基于槽位的标记压缩方法,以便更好地采样更多的视频帧。全面的实验证实了 VTG-LLM 在各种 VTG 任务中相较于其他视频 LLM 方法的卓越性能。
May, 2024
AutoTVG 是一种新的视觉 - 语言预训练范式,旨在通过自动注释的未剪辑视频学习语义对齐和边界回归,从而在有限的监督下实现零样本测试中高竞争性的时态视频定位表现。
Jun, 2024
基于语言查询,通过在未剪辑视频中进行时间界定,暂时视频地基(TVG)旨在定位特定段落的时间边界。本研究在未标注目标场景中,通过引入对抗多模态域适应(AMDA)方法来自适应性调整模型的与场景相关的知识,并通过使用领域辨别器和对齐视频 - 查询对中的语义来解决领域差异和语义差距,以提高模型在新场景中的性能。
Dec, 2023
本文研究了两种先前提出的预训练语言模型(PLMs),分析了不同任务自适应预训练策略对图转文本生成中 PLMs 的影响,发现 PLMs BART 和 T5 实现了新的最先进结果,并且任务适应性预训练策略进一步提高了它们的性能。
Jul, 2020
本文提出了一种基于擦除 - 唤醒方法的预训练语言模型的定位能力实验技术,并在四个数据集上进行了实证研究。实验证明,该方法可以唤醒潜在的实体定位,有望提高下游的语义解析模型,特别是在 text-to-SQL 的应用方面表现出了极大的潜力。
Sep, 2021
该论文提出了一种通过学习区分微调和适应性 PLMs 的方法,使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应,并在对话完成、摘要生成等任务上展示出明显提升。
Jul, 2022
我们提出了一种名为 TEMT 的新框架,利用预训练语言模型(PLMs)来增强文本的时间性知识图谱完成。TEMT 利用存储在 PLM 参数中的知识,能够产生丰富的事实语义表示,并且对以前未见过的实体进行推广。TEMT 将 KG 中的文本和时间信息分别处理,并将它们融合以得到事实的可信度得分。与以前的方法不同,TEMT 有效捕获不同时间点之间的依赖关系,并能对未见实体进行预测。实验结果表明,TEMT 与现有技术相媲美。
Sep, 2023