- Shotluck Holmes:用于视频字幕和摘要的高效小规模大语言视觉模型家族
我们提出一种名为 Shotluck Holmes 的高效大型语言视觉模型 (LLVMs),通过改进预训练和数据收集策略,扩展现有小型 LLVMs 的能力,从仅能理解一张图片到能够理解连续的帧序列,在 Shot2Story 视频字幕和摘要任务 - CVPRMICap: 一个统一的身份感知电影描述模型
本文介绍了一种新的单阶段方法,可以在给定带空白的字幕时无缝切换到基于身份感知的字幕生成或填空任务。我们使用一个共享自回归解码器的模型(MICap),该模型在 FITB 和全字幕生成目标的训练中受益,而编码器可以根据需要利用或忽略输入中带有空 - CVPROmniVid: 通用视频理解的生成框架
通过使用语言作为标签并引入时间和区域标记,我们寻求统一视频理解任务的输出空间,以建立全共享的编码器 - 解码器架构,并通过大量实验证明这一简单而直接的想法在七个视频基准测试中取得了最先进的或有竞争力的结果,为更普遍的视频理解提供了新的观点。
- 通过提示实现任意分词
我们提出了一个统一的、可提示的模型,能够同时分割、识别和描述任何物体。与 SAM 不同的是,我们通过视觉提示在野外构建多用途区域表示。我们使用来自具有 50 亿参数的经过预训练的 CLIP 模型的大规模分割掩码,例如 SA-1B 掩码,和语 - VLM-Eval: 视频大型语言模型的通用评估
本文提出了一个统一的评估方法,包括字幕、问答、检索和行动识别等多个视频任务,展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现,同时也展示了一种简单的基准方法 Video-LLaVA,在评估视频 LLMs 时优于现有方法。此外,我 - 视频 CSR: 复杂视频摘要生成用于视觉 - 语言模型
我们提出了一个新的任务和人类标注的数据集,用于评估视觉语言模型对于生成视频剪辑的标题和摘要的能力,该数据集包含了 4800 个 YouTube 视频剪辑,时长在 20-60 秒之间,涵盖了广泛的主题和兴趣,对于视觉和听觉内容都进行了基于摘要 - UniBrain:将图像重建与字幕生成统一于一个扩散模型之中从人脑活动
通过人脑活动诱发的视觉刺激来进行图像重建和字幕生成,UniBrain 提出了一种统一的人脑活动扩散模型,通过 fMRI 转换文本和图像潜在信息,并通过 CLIP 引导反向扩散过程,从而生成具有低级细节和高语义真实感的图像和字幕。在图像重建和 - ICCVOxfordTVG-HIC: 机器能否从图像中制作幽默的标题?
本研究提出了 OxfordTVG-HIC(Humorous Image Captions),这是用于幽默生成和理解的大规模数据集。通过对所训练模型进行解释性分析,我们发现视觉和语言线索对于引起幽默预测(和生成)具有影响力,并定性地观察到这些 - 使用 GPT 嵌入式技术揭示 FMRI 脑语言
通过 fMRI-based captioning 获取神经的相关性,这有助于认识视觉感知的神经机制,人机交互以及加强学习和训练过程。
- AAAISciCap+: 研究科学图标题挑战的知识增强数据集
通过扩充 SciCap 数据集,创新性地将科技论文中的图例标注生成作为知识增强图像标注任务,提高自动标注的效率与准确性,并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。
- 基于大型语言模型的图像背景和描述生成字幕
本论文提出了一种新方法,使用大型语言模型从文本描述和上下文中生成图像字幕,而无需直接处理图像,经调优后,该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型,解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。
- ACL使用语言模型反馈的零样本视觉问答
该论文提出了一种基于语言模型的字幕模型 LAMOC 方法,用于知识为基础的视觉问题回答(VQA),通过预训练语言模型作为答案预测模型的上下文,实现引导字幕模型的训练和优化,以提高其对任务目标和信息需求的感知能力。
- 通过生成扩散指导的视角分析多模式目标
通过使用分类器引导的扩散模型生成反映分类器提供的语义信号的图像,我们研究了多模态学习目标的特征,并比较了对比、匹配和字幕损失。我们还引入了一个简单的基线,不仅支持我们的分析,而且以直观的方式改进了生成引导的质量。
- CVPR用于通用事件边界字幕生成的双流 Transformer
本文介绍了我们在 CVPR2022 Generic Event Boundary Captioning 竞赛中的冠军方案,提出了一种名为 Dual-Stream Transformer 的模型,利用三个预训练模型从不同颗粒度提取视频特征以辅 - 多模态视频字幕生成的端到端生成预训练
提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT),通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标,以从生图像和录制语音直接生成说明的端到端模型来有效地 - EMNLPR$^3$Net: 基于关系嵌入的表示重建网络用于变化描述
本文提出了一个基于关系嵌入的表示重建网络(R3Net)来明确区分真实变化和大量混乱和无关变化,并引入了外部语法骨架预测器(SSP)来增强变化定位和字幕生成之间的语义交互,实验结果表明,所提出的方法在两个公共数据集上达到了最先进的水平。
- ICCV通过视觉概念进行任务感知的集成学习和迁移学习,赢得 ICCV'2021 VALUE 挑战
本技术报告介绍了我们在 VALUE 挑战赛中的优胜策略:单一模型优化,使用视觉概念的迁移学习以及任务感知的集成。根据我们的方法,我们在比赛的 VALUE 和 QA 阶段中排名第一。
- 图像字幕和视觉问答自动解析网络
提出了一种自动解析网络(APN),将概率图像模型(PGM)参数化为自注意层上的注意操作,以将稀疏假设合并到输入序列的分段中,从而提高基于 Transformer 的视觉语言系统的效率。
- ACL基于伪可视中心词的无监督多模态神经机器翻译
本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译,具备伪视觉枢轴功能,实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法,并能在测试时 - EMNLPVideo2Commonsense: 生成通识描述以丰富视频字幕
通过生成视频常识描述(包括解释动机、影响和描述人物特点)的方法,结合开放式视频常识问答,可以提升通过字幕来理解视频的能力。