visual-linguistic model | BriefGPT

关键词visual-linguistic model

搜索结果 - 5

DRPT：用于组合式零样本学习的解缨和循环提示调节
本文介绍了一种名为 DRPT 的新型分离和循环提示调整框架，通过将状态和对象原语视为嵌入提示中的可学习词汇标记，并在已知组成物上进行调整，精细地调整提示参数并优化引导空间，从而更好地发挥视觉语言模型在组成零样本学习中的潜力。
PDFa year ago
CVPR无需口罩的 OVIS：无需手动标注口罩的开放词汇实例分割
本研究提出了一种基于 Open-Vocabulary（OV）和伪标注掩模的无掩模 OVIS 路线方法，以在弱监督学习条件下学习基本和新颖类别的实例分割模型，从而克服了现有实例分割模型中标注困难的问题并取得更好的性能结果。
PDFa year ago
知识蒸馏的视觉语言模型压缩
本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。
PDF3 years ago
ICCVVideoBERT: 视频与语言表征学习的联合模型
本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征，提出了一种在无显式监督下学习高级特征的方法，并将其应用于多项任务，如动作分类和视频字幕生成等，取得了优越的成绩。
PDF5 years ago
CVPR指令视频中的无监督视觉语言引用解析
通过学习联合视觉和语言模型，我们提出了一种无监督方法来解决教育视频中的实体指代问题，具有可以显著提高指代解析的能力。
PDF7 years ago