关键词multimodal inputs
搜索结果 - 33
  • ACL基于多模态上下文语义解析的语音处理
    PDF24 days ago
  • 多模态模型架构的演进
    PDFa month ago
  • 隐式多模态对齐:关于将冻结的 LLM 泛化到多模态输入
    PDFa month ago
  • G-VOILA: 日常情境下的凝视辅助信息查询
    PDF2 months ago
  • 多方面医学图像解读的通用学习器
    PDF2 months ago
  • LLM-AD: 基于大型语言模型的音频描述系统
    PDF2 months ago
  • StyleBooth: 多模态指导下的图像风格编辑
    PDF3 months ago
  • SpikeMba:多模态脉冲显著性蛇为时态视频定位
    PDF3 months ago
  • 运动乐章:将静态图像转化为动态视频
    PDF4 months ago
  • CVPRPanda-70M:使用多个跨模态教师为 70M 视频加上字幕
    PDF4 months ago
  • CVPRPolos: 从人类反馈中进行多模态度量学习用于图像字幕生成
    PDF4 months ago
  • RoboCodeX: 机器人行为综合的多模态代码生成
    PDF4 months ago
  • 探索视觉 - 语言模型的边界:当前方法和未来方向的综述
    PDF4 months ago
  • 合成情感控制的多模态文本和图像数据的反馈
    PDF5 months ago
  • CreativeSynth:基于多模态扩散的视觉艺术创作与综合
    PDF5 months ago
  • 红队模拟可视化语言模型
    PDF5 months ago
  • 月球计划:以多模态条件实现可控视频生成和编辑
    PDF6 months ago
  • VideoPoet: 用于零样本视频生成的大型语言模型
    PDF6 months ago
  • 海豚:驾驶的多模态语言模型
    PDF7 months ago
  • 仅需字节:在文件字节上直接运行的 Transformer
    PDFa year ago
Prev