零样本自然语言视频定位中的常识

AAAIDec, 2023

零样本自然语言视频定位中的常识

Commonsense for Zero-Shot Natural Language Video Localization

Meghana Holla, Ismini Lourentzou

TL;DR本文研究了零样本自然语言视频定位（NLVL）中常识推理的有效性，并提出了一个名为 CORONET 的零样本 NLVL 框架，利用常识知识图谱，通过常识增强模块来弥合视频和生成的伪查询之间的差距。通过对两个基准数据集的实证评估，证明 CORONET 超过了零样本和弱监督的基准，不同召回阈值下的改进幅度高达 32.13％，在 mIoU 方面的改进幅度高达 6.33％，突出了利用常识推理进行零样本 NLVL 的重要性。

Abstract

zero-shot natural language-video localization (nlvl) methods have exhibited promising results in training nlvl models exclusively with raw

zero-shot natural language-video localization nlvl commonsense reasoning coronet graph convolution networks (gcn)

发现论文，激发创造

零样本自然语言视频定位

本文提出了一种新颖的伪监督方法，用于零样本学习自然语言视频定位模型，并在 Charades-STA 和 ActivityNet-Captions 数据集上实验验证该方法相较于其他方法性能有明显提升。

Aug, 2021

基于跨度问答框架的自然语言视频定位再探讨

本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法，利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题，并通过 VSLNet-L 模型进一步提高性能。实验结果表明，该方法优于现有方法，VSLNet-L 可以解决长时间视频性能衰退的问题。

Feb, 2021

基于常识知识图谱的零样本学习

使用 TrGCN 结构，从 common sense knowledge graphs 中，学习类别的表示形式，有效地提高了 zero-shot learning 的准确性。

Jun, 2020

本地化符号化知识蒸馏用于视觉常识模型

使用局部可见的常识模型来训练视觉 - 语言模型以支持图像内部推理。

Dec, 2023

面向自然语言视频定位的基于 Span 的本地化网络

本文提出了基于跨度问答的视频段定位网络（VSLNet）作为自然语言视频定位（NLVL）任务的解决方案，并通过有效的查询引导突出显示策略解决了 NLVL 与跨度问答之间的差异。在三个基准数据集上的实验表明，该方法优于现有的最优方法，采用笔画问答框架是解决 NLVL 的一个有前途的方向。

Apr, 2020

大型语言模型中常识知识的系统调查

本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估，旨在更好地理解这种模型学习常识知识的程度，结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。

Oct, 2021

来自冻结视觉 - 语言模型的零样本视频时刻检索

我们提出了一种零样本方法，可以从任意的视觉语言模型中获得可泛化的视觉文字先验，并利用条件特征细化模块和自下而上的提案生成策略来改善视频片段与文本的对齐，从而在视频片段检索中实现显著的性能优势。

Sep, 2023

ImageNetVC：1000 个 ImageNet 类别上的零样本视觉常识评估

本文利用人为标注的数据集 ImageNetVC，探究了先前被作为通用接口使用的预训练语言模型（PLMs）和其带视觉增强的对应模型（VaLMs）的视觉常识知识掌握情况及其影响因素。同时，通过研究大规模模型的因素，提供了对视觉常识知识丰富的自然语言模型发展的启示。

May, 2023

基于知识驱动的数据构建在常识问答中的零样本评估

本文提出了一种基于神经符号框架的零样本问题回答方法，利用预训练模型的外部知识资源，获得了在不同任务中的一致性提升，并且在任务结构保持的同时还生成了公平和信息丰富的问题，从而提高了语言模型的学习效果。

Nov, 2020

基于多个知识图谱的模块化迁移学习用于零样本常识推理

本文提出一种模块化的知识聚合的零 - shot 常识推理框架，可以在多个不同的知识图谱中应用，提高了常识推理性能。

Jun, 2022