Jul, 2024

MERLIN:基于 LLM 的迭代导航的多模态嵌入精化用于文本-视频检索-重排流水线

TL;DR通过使用大型语言模型 (LLM) 进行迭代反馈学习,MERLIN (Multimodal Embedding Refinement via LLM-based Iterative Navigation) 提出了一种新颖的、不需要训练的流程,从用户的角度改进查询嵌入,通过动态问答过程增强查询与视频内容之间的对齐,从而改善了多媒体检索的响应性和上下文感知能力。