关键词multimodal model
搜索结果 - 45
  • OtterHD: 高分辨率多模态模型
    PDF8 months ago
  • 探索 GPT-4V 的 OCR 能力:定量和深入评估
    PDF8 months ago
  • Steve-Eye: 使用视觉感知为基于 LLM 的具身化智能体装备开放世界
    PDF8 months ago
  • SALMONN:面向大型语言模型的通用听力能力
    PDF8 months ago
  • LLark: 一个用于音乐的多模态基础模型
    PDF9 months ago
  • 增强型用户界面指令基础:走向通用的用户界面任务自动化 API
    PDF9 months ago
  • ICCV电影理解的长程多模态预训练
    PDFa year ago
  • 任何事物追踪:实时开放集检测、追踪和跟踪
    PDFa year ago
  • Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解
    PDFa year ago
  • UniDiff: 利用生成和判别式学习推进视觉 - 语言模型
    PDFa year ago
  • ViLaS: 将视觉和语言集成到自动语音识别中
    PDFa year ago
  • 一个带有阅读理解的大型跨模态视频检索数据集
    PDFa year ago
  • 基础模型在地理空间人工智能中的机遇与挑战
    PDFa year ago
  • CVPRAVFormer: 为冻结的语音模型注入视觉信息以实现零样本 AV-ASR
    PDFa year ago
  • GPT-4 技术报告
    PDFa year ago
  • 语言引导的具身化智能体多模式语音识别
    PDFa year ago
  • 基于文本和药物嵌入的多模态模型用于不良药物反应分类
    PDF2 years ago
  • Twitter FinBERT 嵌入式的多模态模型用于比特币极端价格变动预测
    PDF2 years ago
  • MQDD:面向软件工程领域的多模态问题重复检测的预训练
    PDF2 years ago
  • MMCommerceMM: 基于全检索的大规模商业多模态表示学习
    PDF2 years ago