cross-modal pre-training | BriefGPT

关键词cross-modal pre-training

搜索结果 - 5

ICCVGrowCLIP: 面向大规模对比式语言图像预训练的数据感知自动模型扩展
通过提出 GrowCLIP，一种基于数据驱动的自动模型增长算法，用于连续图像 - 文本对作为输入的对比性语言 - 图像预训练，本文研究了交叉语义先训练、仍在不断增长的数据、共享编码器、不同维度的增长效果，并使用带动量的参数继承来解决局部最小
PDF10 months ago
AAAINLIP: 噪声鲁棒性语言 - 图像预训练
本文提出了一种基于噪声抵抗的语言 - 图像预训练框架（NLIP），通过噪音协调和噪音补全两种方案来自动稳定预训练，以更有效地减轻图像文本预训练期间的常见噪声影响。通过协同优化噪音协调和噪音补全方案，NLIP 在零样本分类、MSCOCO 图像
PDF2 years ago
EMNLPSpeechUT：基于编码器 - 解码器的语音 - 文本预训练中隐藏单元的桥接
本文提出了 SpeechUT 单一模态语音单元与文本预训练模型，使用隐藏单元对齐语音和文本，并分别使用未配对的语音和文本数据进行联合预训练。该方法在自动语音识别和语音翻译任务中取得了最先进的性能。
PDF2 years ago
对比交叉模态知识共享预训练用于视觉语言表示学习和检索
本研究提出了一种名为 COOKIE 的对比交叉模态知识共享预训练方法，采用传统的双流结构并结合两个有效的模块实现文本 - 图像联合表征，旨在提高跨模态检索的计算效率和统计指标。
PDF2 years ago
AAAIUnicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现
通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，
PDF5 years ago