Sep, 2022
医学视觉与语言预训练的多模态掩码自编码器
Multi-Modal Masked Autoencoders for Medical Vision-and-Language Pre-Training
Zhihong Chen, Yuhao Du, Jinpeng Hu, Yang Liu, Guanbin Li...
TL;DR提出了一种基于 M$^3$AE 的自监督学习模型,通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型,并在三个任务上实现了最先进水平的结果。