BriefGPT.xyz
Ask
alpha
关键词
modality encoder
搜索结果 - 1
VideoLLM: 用大型语言模型对视频序列建模
本文提出了一种名为 VideoLLM 的新框架,它利用了自然语言处理(NLP)预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器,将不同来源的输入转换为统一的标记序列,然后将其馈入仅解码的 LLM 中。
→
PDF
a year ago
Prev
Next