用于多通道视频 - 语言检索的预训练对比模型的快速适应
该研究提出了一种新的预训练方法,利用多项选择问题建立视频和文本之间的语义联系以实现更高效的检索,其结果在不同实验设置下如零成本和微调等多种数据集上均优于现有方法。
Jan, 2022
在视觉语言预训练的演变过程中,从短文理解到包含扩展文本上下文具有关键作用。通过引入对比损失到文本生成模型中,本文提出了一种结合对比学习和多模态处理的统一框架 (ModelName),在涉及文本和视觉数据的任务中,显著提高模型性能,同时降低学习参数。此外,本文介绍了一个首个交叉视频 - 文本数据集 (VideoDatasetName),通过全面的字幕,进一步增强模型在图像 - 文本任务中的性能。
Jan, 2024
本文提出了一种新型的视频 - 语言理解框架 VICTOR,通过对比学习范式构建了几个新型代理任务,使模型在不同角度能够更稳健并能够捕捉更多复杂的多模态语义和结构关系。通过在一个包括 10,000,000 个视频及其相应高质量文本描述的大规模中文视频语言数据集上训练 VICTOR,我们在一系列下游应用中展示了其优越的性能,并与 VideoBERT 和 UniVL 等先进的预训练方法进行了比较。
Apr, 2021
本论文提出了 RECO 模型,该模型通过外部记忆检索获取精细化知识,应用于现有视觉文本模型中,并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。
Jun, 2023
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
本文提出了一种新的多语种文本嵌入生成模型 —— VMSST,通过在 $N$ 种语言的并行数据上运行,通过一个引入的近似算法,在多语种语境中鼓励源分离,我们在比较学习多语种文本嵌入的对比和基于生成的方法时,对其进行了仔细的大规模比较,并对其进行了语义相似性、位文本挖掘、跨语言问题检索等任务的评估,从而证明了其优越性。
Dec, 2022
本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
通过改进对比学习方法,引入新的技术,分别利用文本和视觉线索,从中挖掘出困难负样例,并且能够自适应地确定它们对训练损失的影响;同时,通过构建部分有序三元组样本来模拟细粒度语义相似性,以提高文本 - 视频检索的性能。
Sep, 2023
提出了一种跨模态适配器(Cross-Modal Adapter)方法,对预训练模型进行参数高效微调,可在多模态模型上减少 99.6%的参数、节省 30%的训练时间以及共享预训练模型, 在 MSRVTT、MSVD、VATEX、ActivityNet 和 DiDeMo 数据集上实现了优异或可比的性能。
Nov, 2022