BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal vision-language
搜索结果 - 3
树木园:一个大型多模数据集为生物多样性提供 AI 支持
介绍了 Arboretum 数据集,这是最大的公开可访问的数据集,旨在推动用于生物多样性应用的人工智能。该数据集由 iNaturalist 社区科学平台策划并得到领域专家的核实,包括 1.346 亿幅图像,规模超过现有数据集一个数量级。该数
→
PDF
9 days ago
ICLR
测量神经模型的视觉 - 语言 STEM 技能
我们介绍了一个新的挑战来测试神经模型的 STEM 技能,我们的数据集涵盖了 STEM 的多模式视觉语言信息,包括了 448 项技能和 1,073,146 个问题,与现有数据集相比,我们的数据集涵盖了从幼儿园到 12 年级课程的基础技能和问题
→
PDF
4 months ago
ACL
MAPL: 针对视觉语言少样本提示的单模态预训练模型参数高效自适应
MAPL 是一种有效的参数少、可复用预训练模型并利用其在多模态视觉语言领域中的强大泛化能力的方法,能够将不同模态的模型的表示空间通过对齐的图像文本数据进行轻量级映射,从而在现场学习过程中减少训练量并产生较好的性能。
PDF
2 years ago
Prev
Next