BriefGPT.xyz
大模型
Ask
alpha
关键词
visual and language embedding
搜索结果 - 1
Pixel-BERT:基于深度多模态 Transformer 实现图像像素与文本的对齐
Pixel-BERT 是一种多模态的深度转换器,可以通过使用图像和文本数据对其进行联合学习,从而在像素和文本级别上进行语义连接,实现视觉和语言任务的更准确和彻底的连接,并解决了视觉任务中语义标签不平衡的问题。
PDF
4 years ago
Prev
Next