BriefGPT.xyz
大模型
Ask
alpha
关键词
visual-linguistic representations
搜索结果 - 2
TVLT: 无文本的视觉语言变换器
该研究提出了一种无需文本模块的视频与语言结合模型 ——Textless Vision-Language Transformer (TVLT),采用均质的 transformer block 提取由视觉和语音输入组成的多模态信息,用 mask
→
PDF
2 years ago
多模态转换器中数据、注意力和损失的解耦
本文章论述通过训练多模态 transformer 模型,其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务,并研究了三个重要因素:预训练数据、注意机制和损失函数,以评估其对于模型性能的影响。
PDF
3 years ago
Prev
Next