Apr, 2020

Pixel-BERT:基于深度多模态 Transformer 实现图像像素与文本的对齐

TL;DRPixel-BERT 是一种多模态的深度转换器,可以通过使用图像和文本数据对其进行联合学习,从而在像素和文本级别上进行语义连接,实现视觉和语言任务的更准确和彻底的连接,并解决了视觉任务中语义标签不平衡的问题。