SNP-S3: 共享网络预训练和显著语义增强用于多种视频文本任务

Jan, 2024

SNP-S3: 共享网络预训练和显著语义增强用于多种视频文本任务

SNP-S3: Shared Network Pre-training and Significant Semantic Strengthening for Various Video-Text Tasks

Xingning Dong, Qingpei Guo, Tian Gan, Qing Wang, Jianlong Wu...

TL;DR我们提出了一种通过直接在原始数据上进行预训练以促进各种下游视频文本任务的跨模态视频表示学习框架，并在预训练框架和代理任务方面做出了主要贡献。

Abstract

We present a framework for learning cross-modal video representations by directly pre-training on raw data to facilitate various downstream video-text tasks. Our main contributions lie in the pre-training framework

cross-modal video representations pre-training framework proxy tasks shared network pre-training significant semantic strengthening

发现论文，激发创造

VIMPAC: 基于掩码预测和对比学习的视频预训练

该研究基于预测任务以及块状掩码策略，提出一种输入处理策略及无数据扩充方法，以达到在 SSV2、Diving48 等视频理解数据集上实现最先进效果的目的，并对模型伸缩性和预训练方法进行了详细分析。

Jun, 2021

问题回答的跨度选择预训练

本篇论文提出了一种新的预训练模型 SSPT，即 Span Selection Pre-Training，通过将预训练模型任务转换为阅读理解，从而提高 BERT 及其他预训练模型的学习能力，实验证明该方法对于数据集有限的场景下表现尤为出色。

Sep, 2019

SpeechT5：面向口语语言处理的统一模态编解码预训练

本文介绍了一种名为 SpeechT5 的统一多模态语音文本表示学习框架，该框架采用编码器 - 解码器预训练的方法进行自监督学习，具有包括自动语音识别、语音合成、语音翻译、语音增强和说话人识别在内的广泛的口语处理任务上的卓越性能。

Oct, 2021

基于对称正则化的 BERT 模型对对语义推理

为了提高文本对推理和阅读理解等任务的理解能力，我们对 BERT 模型中的下一句预测任务进行了改进，引入了前一句预测任务，扩展了任务范围，同时通过标签平滑技术减少了噪声。实验证实，该改进方法能够显著提高 BERT 模型的性能，在自然语言推理和机器阅读理解等数据集上都表现出了优异的效果，证明了文本级预训练任务仍然具有潜力。

Sep, 2019

用于语义网络填充的多任务预训练语言模型

本文研究如何提高知识图谱的完整性，通过引入 LP-BERT 模型，并结合语义匹配以及数据增强的方法，实现了知识图谱补全任务的最新成果，优于现有最佳表现。

Jan, 2022

VLM: 任务无关的视频语言模型预训练，用于视频理解

提供了一种简化、任务无关的多模态预训练方法，可以接受视频或文本输入，或两者皆可用于各种端任务。实验结果表明，在多种任务中表现出比以前的方法更强的性能，通常优于任务特定的预训练。

May, 2021

SUPERB-SG: 语音处理语义与生成能力的增强通用性能基准

介绍 SUPERB-SG - 一个新的基准测试，用于评估预训练模型的语义和生成能力，并使用轻量级方法测试预训练模型所学习表示的鲁棒性，以更全面地了解模型的效果和通用性。

Mar, 2022

现代语言模型的损失函数

本文探讨了 BERT 预训练在 NSP 任务上的影响以及其他 14 种可能的辅助预训练任务，并研究了将多个任务包含到预训练中的不同方法。实验证明，使用多种任务的多任务预训练框架比单个辅助任务更好地提高了结果表现，并在 GLUE 基准测试中打败了 BERT Base。

Oct, 2020

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022