- CVPRMICap: 一个统一的身份感知电影描述模型
本文介绍了一种新的单阶段方法,可以在给定带空白的字幕时无缝切换到基于身份感知的字幕生成或填空任务。我们使用一个共享自回归解码器的模型(MICap),该模型在 FITB 和全字幕生成目标的训练中受益,而编码器可以根据需要利用或忽略输入中带有空 - CVPR利用 MLLM 的能力进行可迁移的文本到图像人物再识别
通过使用多模态大型语言模型,本文提出了一种用于人物图像重新识别的文本到图像转换方法,通过生成各种模板的描述来构建大规模数据集,同时使用相似性判断方法处理不准确的描述,从而显著提升直接转换的文本到图像人物重新识别性能。
- ACLBCAmirs 参与 SemEval-2024 第 4 项任务:超越言语:以多模态和多语言方式探索 Memes 中的说服力
我们介绍了一种基于 GPT-4 生成字幕的方法,通过 fine-tune RoBERTa 作为文本编码器和 CLIP 作为图像编码器,改进了以文本和图像为基础的表意编码,取得了明显的性能提升。
- 基于神经模型的图像标题增强
本研究使用深度学习模型来探索神经图像字幕生成的领域,研究不同的神经网络架构配置,重点关注注入架构,并提出了一种新的质量度量标准来评估字幕生成。通过广泛的实验和分析,本研究揭示了图像字幕生成中的挑战和机遇,深入洞察了模型行为和过度拟合问题。结 - 高效图像探索与用户引导图像标题生成的视觉分析
运用预训练的大规模语言 - 图像模型,本文尝试解决可视化分析中的两个问题:大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题,我们能深入了解视觉内容的语义基础,并 - ICCV自我监督的跨视图表示重建用于变化字幕
本文提出了一种自监督的 SCORER(self-supervised cross-view representation reconstruction)网络来学习稳定的差异表示,以用于生成图像描述,同时利用交叉模态的逆向推理提高描述质量。实 - Vote2Cap-DETR++:解耦定位与描述的端到端三维稠密字幕
通过并行解码,Vote2Cap-DETR 提出了一种将对象定位和描述生成解耦的简单而有效的变压器框架,以及引入了迭代空间精细化策略和额外的空间信息来提高定位性能和准确描述,实验证明其优于常规的 “检测然后描述” 的方法。
- 以图注形式生成科学文档的自动文本摘要
本文介绍用纯文本方法生成科学文献图注的一种新方法,使用了提取目标图像引用的句子然后将其总结为简明的图注的技术。通过真实世界 arXiv 论文的实验,我们的方法在自动和人工评估中都优于以前的方法,证明了纯文本技术在生成学术文章中的图片标注方面 - EMNLP沟通失效:人类和神经字幕之间的低互通性
该研究比较了神经视觉检索器基于人工和神经式生成的图片描述符的 0-shot 检索性能表现,并通过对 ImageCoDe 数据集进行实验,发现神经式生成的描述符表现更好,这表明神经模型在生成描述符方面的语言形式与英语相似,但是这种表面上的相似 - 利用外部百科知识生成图像描述
本文提出了一种使用图像特定的百科全书数据生成上下文化标题的新方法,并通过在编码和解码阶段将其整合到标题生成流程中来使其与图像相关。在新数据集上测试,结果表明该方法能有效地生成准确有关图像的标题。
- CVPR使用外部知识检索词汇的新颖目标字幕生成技术 NOC-REK
该研究提出了一种名为 NOC-REK 的端到端的新物体字幕生成方法,通过从来自 Wiktionary 的嵌入中检索任何对象的定义,使用 transformers 模型中学习的图像区域特征来检索字典,从而有效地描述训练数据中缺失的对象。此外, - CVPRZeroCap:面向视觉语义算术的零样本图像到文本生成
本文介绍了一种将视觉语义模型和大型语言模型相结合的技术,实现了对图像生成描述性文本的能力,且可用于图像算术和视觉类比等高级视觉能力的应用。
- EMNLPSciCap:生成科学图像的标题
本文提出一种端到端的神经框架,用于自动生成科学图表的信息丰富,高质量的标题,并引入了基于计算机科学 arXiv 论文的 SCICAP 大规模图标题数据集,包括 200 万多个来自 290,000 多篇论文的图像,展示了为科学图表生成标题的机 - ACLO2NA:一种用于可控视频字幕生成的面向对象非自回归方法
本文介绍了一种基于物体的非自回归方法 (O2NA) 用于视频字幕生成,它包括确定聚焦对象,生成草案字幕,以及将视频信息与草案字幕结合以生成最终流畅字幕等步骤,实验结果表明 O2NA 在 MSR-VTT 和 MSVD 两个基准数据数据集上具有 - MM使用自然语言查询搜索未经处理的视频数据库
本文介绍了一种使用循环神经网络和卷积神经网络生成视频片段标题的方法,以便用户能够使用语音查询从视频数据库中搜索匹配给定查询规范的需要的视频片段。
- CVPR实体感知新闻图像标题生成
该研究提出了一种端到端模型,用于为嵌入新闻文章的图像生成标题。该模型采用多模态,多头注意力机制,结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题,并在 CIDEr 评分上实现了当前最高水平的四倍提升。
- EMNLP图像字幕中的组合泛化
该论文研究了图像编码模型的组合推广问题,使用多任务模型相结合的方法,结合了描述生成和图像 - 句子排序,并使用重新排序的解码机制,该模型在描述未见过的概念时比现有现有模型表现更好。
- 通过对抗式学习生成多样且准确的视觉描述
提出一种基于条件生成对抗网络的比较式对抗学习框架,能够在图像描述任务中生成不仅准确而且多样化的描述语句。
- CVPR通过重构过去与现在生成字幕的正则化循环神经网络
本文提出了一种新颖的架构:auto-reconstructor network (ARNet),它与传统的 encoder-decoder 框架相结合,以端到端的方式生成标题,并采用先前的隐藏状态作为当前状态的输入,来重新构建状态,以帮助 - 连续视频流中的事件检测和描述
JEDDi-Net 是一种用于密集视频字幕生成的神经网络,它通过三维卷积层对输入视频流进行连续编码,并使用时间池化特征提出可变长度的时间事件,再生成它们的字幕。在大规模数据集上,JEDDi-Net 表现出了优异的性能。