BriefGPT.xyz
大模型
Ask
alpha
关键词
end-to-end joint training
搜索结果 - 2
音视频 LLM 用于视频理解
该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型,它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练,它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机
→
PDF
7 months ago
基于生成语言建模的可微检索增强方法用于电子商务查询意图分类
检索增强通过知识检索器和外部语料库提高下游模型的性能,成功应用于许多自然语言处理(NLP)任务,然而,现有的方法由于两个部分之间的不可微性而分别或异步训练检索器和下游模型,通常导致性能下降,与端到端联合训练相比。
PDF
a year ago
Prev
Next