关键词multimodal understanding
搜索结果 - 18
- InsightSee:提升多智能体视觉语言模型以增强视觉理解力PDFa month ago
- GPT-4V 的进展:通过开源套件缩小与商业多模型的差距PDF2 months ago
- MMT-Bench:一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准PDF2 months ago
- Heron-Bench: 评估日语视觉语言模型的基准PDF3 months ago
- AAAI大型语言模型如何促进更好的社交辅助人机交互:简要调查PDF3 months ago
- Design2Code: 前端工程自动化的实现程度如何?PDF4 months ago
- InternLM-XComposer2:掌握视觉语言大型模型中的自由文本 - 图像组合和理解PDF5 months ago
- NExT-Chat:一种聊天、检测和分割的 LMMPDF8 months ago
- 语言模型能在 YouTube 短视频中大笑吗?PDF8 months ago
- 简化多模态生成:当扩散模型与 LLMs 相遇PDF9 months ago
- UniDoc:一种用于同时文本检测、识别、标定和理解的通用大型多模态模型PDF10 months ago
- 大规模预训练模型是否可帮助视觉模型完成感知任务?PDFa year ago
- VALOR: 视听语言全感知预训练模型和数据集PDFa year ago
- IRFL:修辞语言的图像识别PDFa year ago
- 多模式讲座演示文稿数据集:理解教育幻灯片中的多模式性PDF2 years ago
- CVPR在动态音视频场景中学习回答问题PDF2 years ago
- 视频中的时序句子地位划分:调查与未来方向PDF2 years ago
- CVPRVIOLIN:一个大规模的视频和语言推理数据集PDF4 years ago
Prev
Next