关键词visual alignment module
搜索结果 - 2
- 野外活动视频查询
本文针对非平衡场景中的视频查询中的活动检索进行研究,提出了一种视觉 - 语义嵌入网络,该网络包含两个新模块:视觉对齐模块通过全局对齐输入视频和所有活动的固定大小视觉库表示之间的关系,语义模块在输入视频和固定大小的语义活动表示之间进行对齐。通 - R2GenGPT:使用冻结 LLM 的放射学报告生成
为了有效地弥合 LLMs 和 R2Gen 任务之间的模态差异,提出了一种新颖的解决方案 R2GenGPT,通过高效的视觉对齐模块将视觉特征与 LLMs 的词嵌入空间对齐,使得以前静态的 LLMs 能够无缝集成和处理图像信息,从而优化 R2G