关键词multimodal inputs
搜索结果 - 33
- MultiFusion:预训练模型融合用于多语言,多模态图像生成PDFa year ago
- Perceiver-VL: 迭代潜在注意力的高效视觉语言建模PDF2 years ago
- COLING移动界面实现更优语义理解PDF2 years ago
- 多模态知识对齐与强化学习PDF2 years ago
- 学习聆听:建模非确定性二元面部动作PDF2 years ago
- 基于 Co-Attention 的多层声学信息的语音情感识别PDF2 years ago
- 一体化:探索统一的视视频 - 语言预训练PDF2 years ago
- 医疗应用集成多模态人工智能框架PDF2 years ago
- ACLKM-BART:用于视觉常识生成的知识增强多模态 BART 模型PDF4 years ago
- COLING多模态交互对话PDF4 years ago
- 基于多视角注意力网络的视觉对话PDF4 years ago
- 矩阵神经网络PDF8 years ago
- ICLR深度学习用于机器人抓取检测PDF11 years ago
Next