关键词natural language supervision
搜索结果 - 7
- CLDR: 自然语言监督下的对比学习药物响应模型
利用基于深度学习的药物响应预测方法可以加快药物研发过程和降低研发成本。通过提出一种基于对比学习的自然语言监督框架,将回归标签转换为文本,并将其与传统的图形和序列模态进行比较,可以在药物响应预测方面取得卓越的预测性能,并能有效约束样本在表示空 - ICML儿童视频内容的视觉语言模型用于内容管理的潜力
该研究通过评估多种 CLIP 变种模型在儿童动画视频内容管理中的性能,展示了 Vanilla CLIP with Projection Layer 模型在提供更多上下文环境的内容管理提示方面优于以往工作的结果。研究结果表明,在内容管理提示中 - 自监督不助于大规模自然语言监督
本研究探讨了自监督与自然语言监督相结合,对大规模图像 - 文本训练的影响,结果表明,这种结合方式能够提高小数据集的表现,但对大规模数据集并没有显著提升。
- ECCV利用文本为视觉表示建立通用领域基础
本文提出了一种基于自然语言监督的跨模态领域泛化方法,利用视觉和文本交互的表征来实现高级别类别判别的信息融合,并使用可解释的模型来生成解释,从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。
- CLAP:从自然语言监督中学习音频概念
提出一种基于自然语言监督学习的音频概念学习方法 CLAP,通过两个编码器和对比学习将音频和文本描述连接到多模态空间中,从而实现了零样本性能,其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。
- CVPR弱监督语义分割的跨语言图像匹配
本文提出了一种基于 CLIP 模型的跨语言图像匹配框架 CLIMS,通过自然语言监督以激活更合理的物体区域和抑制相关的背景区域,并使用一组预定义的类相关背景文本描述来防止模型激活相关背景区域,在 PASCAL VOC2012 数据集上进行了 - ECCV我们有许多共同点:建模视频中的语义关系集合抽象
本研究提出了一种学习基于视频的语义关系集合抽象的方法,将视觉特征与自然语言监督相结合,实现视频系列中的相似性高级表示,可用于识别智能决策中的共同概念,视频添加问题以及异常检测,在 Kinetics 和 Multi-Moments in Ti