BriefGPT.xyz
Ask
alpha
关键词
multimodal comprehension
搜索结果 - 3
VideoLLaMA 2: 在视频 LLMs 中推进时空建模与音频理解
本论文介绍了一种名为 VideoLLaMA 2 的视频大型语言模型,它通过嵌入空间 - 时间卷积 (STC) 连接器和联合训练音频分支来增强视频和音频任务中的空间 - 时间建模和音频理解能力,并在多个任务上展示了竞争性结果,进一步提升了多模
→
PDF
25 days ago
用 SEED 令牌化器使 LLaMA 具备视觉和绘图能力
通过引入 SEED 图像标记器,使 LLMs 能够在其原始训练配方下执行可扩展的多模式自回归,并在广泛的多模式理解和生成任务中展示出令人印象深刻的性能。
PDF
9 months ago
EMNLP
RecipeQA: 多模态烹饪食谱理解挑战数据集
本文介绍了适用于多模态理解和推理任务的 “RecipeQA” 数据集,其中包含大约 20,000 个有多个模态(如标题,描述和一组对齐的图像)的烹饪配方的指令,与其对应的 36,000 多个问题答案对。我们利用自动生成的问题,设计了一组需要
→
PDF
6 years ago
Prev
Next