本研究提出基于 Transformer 的全局与局部信息探索与提炼方法,在跨模态视角下探究图像字幕生成,并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。
Feb, 2020
提出了一种名为 MAD 的方法,可以使用预训练的单模态视觉和文本编码器对跨模态 VL 编码器进行自适应蒸馏,从而提高了跨模态学习的性能,特别是在 VCR 领域取得了 SOTA 表现。
Apr, 2022
我们引入了一种多模态神经机器翻译模型,其中双重注意力解码器自然地整合了使用预先训练的卷积神经网络获取的空间视觉特征,弥合了图像描述和翻译之间的差距。我们的解码器通过两个独立的注意机制在生成目标语言单词时独立地关注源语言单词和图像的部分。我们发现我们的模型不仅可以高效地利用反向翻译的域内 多模态数据,还可以利用大规模的通用领域文本翻译语料库。我们还在 Multi30k 数据集上报告了最先进的结果。
Feb, 2017
该研究提出了一种名为 Translate-Distill 的方法,它利用交叉编码器或 CLIR 交叉编码器的知识蒸馏来训练双编码器 CLIR 学生模型。
Jan, 2024
本文提出了一种新颖的蒸馏方法,将自然语言处理模型中的交互信息更好地应用于开放领域的问答问题,并通过级联蒸馏方法优化成绩,从而在 Open-Domain QA 基准上取得了优于强基线模型的最优结果。
May, 2022
本文提出了一种新的多模态语音和文本输入结构,使用多头交叉注意力结合预训练语音和文本编码器,并在目标问题上联合微调。所得的编码器可用于连续的令牌级别分类或对同时文本和语音进行话语级别的预测,并高效地捕获声学 - 韵律和词汇信息。
本文旨在研究如何将预训练的异模态 transformers 的视觉信息提炼给语言编码器,提出了一个被称为 XDBERT 的新框架,经过训练后在常规语言理解评估(GLUE)、有对抗生成的情况(SWAG)以及可读性基准测试上比预训练的 BERT 表现更好,并分析了 XDBERT 在 GLUE 上的表现,证明了改进很可能是基于视觉语言的。
本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索,并将两种方法相结合,提高了检索准确性并确保了可扩展性,同时还引入了新的细粒度跨注意力架构,并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型,并在 Flickr30K 图像数据集和 VATEX 视频数据集上验证了该方法。
Mar, 2021
这篇论文探索了利用大规模预训练的多个文本编码器设计的算法,提出了一种新颖的综合蒸馏方法 TeachText,并将其拓展应用到视频检索上,在多个视频检索基准上超过了现有技术,而且在测试时不会增加计算负荷。
Apr, 2021
本文通过概率分布编码器(PDE)将所有模态的表示作为概率分布映射,对不确定性建模,提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。
Oct, 2022