BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal modeling
搜索结果 - 2
视觉基准帮助在低数据环境中学习词义
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
PDF
8 months ago
视听语言大脑编码
本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性,发现多模态转换器 VisualBERT 在编码上远优于之前提出的单模态 CNN、图像转换器以及其他先前提出的多模态模型,这表明视觉语言模型的优越性,产生了人们是否在被动地查看图像
→
PDF
2 years ago
Prev
Next