BriefGPT.xyz
Ask
alpha
关键词
vision and language model
搜索结果 - 2
OBELISC: 一个开放的大规模的筛选过的交错图像文本数据集
本文介绍了一个大型多模式模型数据集(OBELISC 数据集),由 141 亿个网页、353 亿个相关图像和 1150 亿个文本标记组成,在此数据集上训练出的模型在各种多模态测试中获得了有竞争力的性能表现。
PDF
a year ago
视觉和语言的人物再识别
我们提出了一种新的人员再识别方法,使用图像和自然语言描述的联合视觉和语言模型,相比属性和 LSTM,使用自然语言描述和 CNN 可以显著提高标准 Re-ID 基准测试的性能。
PDF
7 years ago
Prev
Next