关键词contrastive language image pretraining
搜索结果 - 4
- FiGCLIP: 细粒度 CLIP 适应通过密集标注视频
通过基于 VidSitu 数据集的细节导向字幕和层级损失,我们改进了 contrastive language image pretraining (CLIP) 模型,提高了其对细粒度和句法的理解能力,并在不同任务中取得了稳定的改进。
- AAAICLIP 和 LLM 在医疗中的多模态问题摘要
在现代医疗时代,迅速生成医疗问题摘要对知情和及时的患者护理至关重要。本文介绍了多模态医疗问题摘要(MMQS)数据集,该数据集将医疗查询与图像辅助相结合,便于更丰富、更细致地理解患者需求。我们提出了一个基于 Contrastive Langu - CLIP 融合模型库专家:视觉增强的伪监督
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
- 基于文本的人物搜索中 CLIP 的实证研究
基于 Contrastive Language Image Pretraining 的 TBPS 模型设计及研究,提供对 CLIP-based TBPS 任务的全面实证研究以及一个强大的 TBPS-CLIP 基准模型。