BriefGPT.xyz
Ask
alpha
关键词
omni-modality model
搜索结果 - 1
X-VILA: 大型语言模型的跨模态对齐
X-VILA 是一种全模式模型,通过结合图像、视频和音频模态来扩展大型语言模型(LLMs)的能力,实现跨模态的理解、推理和生成。在此基础上,通过一个有效的交错的任意 - 任意模态指令跟踪数据集以及一种视觉嵌入高速公路模块,解决了当前交叉模态
→
PDF
a month ago
Prev
Next