关键词cross-modal alignment
搜索结果 - 52
  • 缓解差距:研究提升 CLIP 中跨模态对齐的方法
    PDF7 days ago
  • 视觉对齐中的图像识别:优先考虑视觉相似性
    PDFa month ago
  • 胸部 X 光报告生成的结构实体提取与患者指征融入
    PDFa month ago
  • AlignGPT: 具有自适应对齐能力的多模态大型语言模型
    PDFa month ago
  • 事实序列化增强:胸部 X 射线报告生成的关键创新
    PDF2 months ago
  • 听力先行:具有讲话者关注的视频对齐
    PDF2 months ago
  • HiVG: 视觉引导的分层多模态细粒度调控
    PDF2 months ago
  • CVPR联合对齐和回归的孪生学习用于弱监督视频段落定位
    PDF3 months ago
  • SeCG:基于跨模态图注意力的语义增强的 3D 视觉定位
    PDF4 months ago
  • 基于跨模态方法的无声语音的 LLM 增强识别
    PDF4 months ago
  • COLING语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练
    PDF4 months ago
  • 注意模态差异:通过交叉模态对齐实现遥感视觉语言模型
    PDF5 months ago
  • AAAI基于条件变分自动编码器的手语翻译与跨模态对齐
    PDF6 months ago
  • M2ConceptBase: 一个细粒度的对齐多模态概念知识库
    PDF7 months ago
  • AAAI通过合成对的方法改善文本式图像描述的跨模态对齐
    PDF7 months ago
  • VLAP: 通过帧提示和蒸馏实现高效视频 - 语言对齐用于视频问答
    PDF7 months ago
  • PMMTalk:基于互补伪多模特征的语音驱动 3D 面部动画
    PDF7 months ago
  • VGSG: 基于视觉引导的文本人物检索的语义组网络
    PDF8 months ago
  • 跨模态突出片段增强对齐网络:图像 - 文本检索
    PDF8 months ago
  • MM视频参照表达理解中的基于内容条件查询的 Transformer
    PDF8 months ago
Prev