关键词visual cues
搜索结果 - 50
  • ColPali:视觉语言模型高效文档检索
    PDF9 days ago
  • CVPR2D-3D 对齐下的异常检测
    PDF9 days ago
  • AV-CrossNet: 一种用于语音分离的音视频复杂频谱映射网络,利用窄频和交叉频带建模
    PDF19 days ago
  • 通过有效的预训练任务提升图表问答能力
    PDF22 days ago
  • ACLM3T: 多模文档级机器翻译的新基准数据集
    PDF24 days ago
  • LipGER:依赖视觉条件的生成式误差纠正用于鲁棒自动语音识别
    PDFa month ago
  • IJCAI音频 - 视觉交叉模态条件语音提取中的分离
    PDF3 months ago
  • 野外情感维度识别的联合多模态变压器
    PDF4 months ago
  • 利用元学习改善全画面视频稳定化
    PDF4 months ago
  • CMFN: 跨模态融合网络用于不规则场景文字识别
    PDF6 months ago
  • DocLLM: 多模态文档理解的自适应生成语言模型
    PDF6 months ago
  • 利用开放词汇扩散进行伪装实例分割
    PDF6 months ago
  • AV-RIR:音频 - 视觉房间冲激响应估计
    PDF7 months ago
  • 适应说话者的端到端连续西班牙语视觉语音识别
    PDF8 months ago
  • 结合以语言驱动的外观知识单元和视觉提示的行人检测
    PDF8 months ago
  • 在重症监护室中检测视觉线索及其与患者临床状况的关联
    PDF8 months ago
  • 透视对话:基于扩散模型的音频 - 视觉语音分离
    PDF8 months ago
  • 可学习的语义数据增强的细粒度识别
    PDF10 months ago
  • ICCV视觉引导的音频混响去除
    PDF10 months ago
  • 用于开放式语义分割的多模态原型
    PDFa year ago
Prev