关键词vision-language modeling
搜索结果 - 8
- 推进生物医学中高分辨率视觉语言模型
我们的研究在生物医学领域提出了一个新的指导数据集,利用医学图像文本对,提出了一种新的图像编码策略,通过使用分层表示改善了精细的生物医学视觉理解,并且开发了 LLama3-Med 模型,在生物医学视觉问答基准测试中实现了最先进的零 - sho - YOLO-World:实时开放词汇物体检测
YOLO-World is an innovative approach that enhances the You Only Look Once (YOLO) series of detectors with open-vocabular - 视觉语言模型中思维链路提示调优
本文提出了一种基于连锁式思维提示调整的视觉语言建模方法,经过广泛的实验验证,我们的方法在图像分类任务中的泛化能力更强,在单个数据集之外具有更强的可转移性和更强的领域泛化性能,而且在需要更多推理能力的图像文本检索和视觉问答方面表现更好。
- WWW电商同款商品检索的统一视觉语言表征建模
本文提出一种统一的视觉 - 语言建模方法,用于电子商务同款产品检索,包括取样和对比学习,可进行跨模态产品检索和用户交互搜索,离线和在线测试都表明其卓越的检索性能和吸引更多点击和转化的能力,并已在全球最大的 B2B 电子商务平台中部署用于同款 - CVPR开放式词汇属性检测
本论文提出了开放词汇属性检测(OVAD)任务和对应的 OVAD 基准,旨在探究视觉语言模型中学习的物体级属性信息,并提供了一个干净的、密集注释的测试集和一个基准方法,包含了 117 种属性类别和 80 种物体类别的 1.4 百万注释,并通过 - 利用少样本学习和微调对 MAGMA 进行对其
本文旨在评估并对齐名为 Multimodal Augmentation of Generative Models through Adapter-based finetuning (MAGMA) 的视觉语言模型与人的价值观,通过三个不同的情 - OmniVL: 图像 - 语言和视频 - 语言任务的基础模型
OmniVL 提出了一种新的基础模型,它通过使用一种通用架构来支持图像语言和视频语言任务,采用了一种统一的基于 Transformer 的视觉编码器,以此来实现联合图像语言和视频语言的预训练,并展示了这种范式的好处,并且这种模型能够同时支持 - EMNLP基于 Adapter 微调的多模态生成模型增强方法 MAGMA
通过适配器微调的方法,将额外的模态结合到生成式语言模型中用于预训练,实现一个端到端的单一语言建模目标,从而取得了在开放式生成任务和多个流行 VL 基准测试上的最先进结果,同时只使用了 SimVLM 用于训练的样本数量的 0.2%。