视频辅助的无监督语法归纳

ACLApr, 2021

Video-aided Unsupervised Grammar Induction

Songyang Zhang, Linfeng Song, Lifeng Jin, Kun Xu, Dong Yu...

TL;DR本研究旨在探索利用视频信息进行语法归纳，通过提取丰富的视频特征，使用多模混合概率上下文无关文法模型（MMC-PCFG）进行端到端的无监督语法归纳，实验结果表明该模型在未标注的文本和视频中表现出色。

Abstract

We investigate video-aided grammar induction, which learns a constituency parser from both unlabeled text and its corresponding video. Existing methods of multi-modal grammar induction focus on learning syntactic grammars from text-image pairs, with promising results showing that the i

video-aided grammar induction multi-modal compound pcfg model rich features unsupervised grammar induction video information

发现论文，激发创造

从海量非结构化教学视频中学习语法规则诱导器

本文研究了视频和文字间松散对应情况下的视频辅助语法归纳方法，构建了新的模型并在大规模 YouTube 数据上进行训练，实现了在不同数据集上的强大性能表现，优于之前领先的系统。

Oct, 2022

无监督语法归纳是否需要像素？

本论文探究了多模态线索对于语法成分归纳是否仍然存在显著收益，发现相对于以往多模态方法，基于大型语言模型的 C-PCFG（LC-PCFG）方法在无监督的成分归纳任务中表现更好，并且在参数计算上可以降低 50% 以上，在图像辅助模型的训练时间上可以提高 1.7 倍，在视频辅助模型的训练时间上可以提高 5 倍以上。这些结果挑战了需要图像像素等外语信号来进行无监督语法归纳的观点，并指向了提高基于纯文本的基准以评估多模态之必要性的需求。

Dec, 2022

视觉基础复合 PCFG

本文将视觉与语言相结合用于语言理解，采用一种基于概率无上下文文法模型的 full-differentiable 端到端视觉理解模型，在 MSCOCO 测试标题上取得了新的最佳效果，证实了视觉基础在短语结构语法归纳中的有效性。

Sep, 2020

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

视频对话生成中的多模态语义图协同推理

本文研究了基于视频对话生成，提出一种方法，可以将视频数据集成到预训练语言模型中，通过多模态推理实现各种模态之间的互补信息，实验结果表明，该模型能够在自动和人工评估方面显著优于现有的最先进模型。

Oct, 2022

利用多模态潜在主题进行视频字幕生成

该论文提出了一种基于 M&M TGM 的统一字幕生成框架，它利用从数据中无监督挖掘的多模态话题，并通过话题引导字幕解码器，通过并行任务主题预测来提高学习效果。该模型通过对 MSR-VTT 和 Youtube2Text 数据集进行广泛实验，证明了其在视频字幕生成方面的有效性，同时还具有更好的泛化能力。

Aug, 2017

通过多模态调节进行视频综合的展示和说明

使用多模态生成框架，结合文本和图像训练双向变压器等多重输入来预测离散视频表示，同时提供改进的样本视频代币和文本增广，以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态，可以通过文本提示生成对应视频，并在四个数据集上取得了最新的生成结果。

Mar, 2022

通过多模态遮挡视频生成实现统一的文本引导视频完成

提供了一个新的任务，即文本引导下的视频完成（TVC），并提出了一种新的模型 —— 多模式蒙版视频生成（MMVG），通过文本输入生成高质量的视频完整图像，同时满足预测，倒带和填充的条件。

Nov, 2022

一种视频动作检测的语法组合模型

基于语法组合模型的行为检测方法可以有效地分析视频中的人类行动，提高模型的解释性和优化效果。

Oct, 2023