BriefGPT.xyz
大模型
Ask
alpha
关键词
compositionality benchmarks
搜索结果 - 2
使用语义有意义的标记理解视觉表示学习的效果
在视觉 - 语言预训练框架中,通过提供语义上有意义的视觉标记给 transformer 编码器,本文探索了视觉 transformer 在学习综合和组合性视觉数据表示方面的限制,并通过使用现成的分割和场景图模型,提取了实例分割掩码(称为有形
→
PDF
a month ago
CLoVe: 对比视觉语言模型中的组合式语言编码
近年来,视觉与语言任务的性能显著提升。本文介绍了一个框架,极大地提高了现有模型对构成性语言的编码能力,在构成性基准测试中绝对改进了 10%,同时在标准的对象识别和检索基准测试中保持或提高了性能。
PDF
4 months ago
Prev
Next