May, 2022

i-Code: 一种集成且可组合的多模态学习框架

TL;DR该论文提出了一种自我监督的预训练框架 ——i-Code,用户可以将视觉、语音和语言的模态灵活地组合成统一的多用途向量表示,通过融合网络使用新颖的注意机制和其他架构创新来从不同模态中有效地组合信息,实验证明 i-Code 可以优于现有的技术在五个视频理解任务和 GLUE NLP benchmarks 上取得最先进的表现。