BriefGPT.xyz
Ask
alpha
关键词
modality-augmented training
搜索结果 - 1
音视频 LLM 用于视频理解
该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型,它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练,它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机
→
PDF
7 months ago
Prev
Next