该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr 主要评价指标的改进。
May, 2024
ZeroTA 是一种用零样本方式进行密集视频字幕生成的新方法,它通过与语言生成模型和视觉语言模型的联合优化来定位和描述输入视频中的事件。
Jul, 2023
多场景和多语言的视觉描述生成中,我们提出了一种简单而有效的零样本方法 MultiCapCLIP,它可以在不需要标注视觉 - 描述对的情况下,为不同的场景和语言生成视觉描述,并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。
Aug, 2023
本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题,此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分,并且可以提高图像识别率和生成图像的质量。同时,研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。
Apr, 2022
使用大型语言模型(LLMs)作为一种经济的、无需参考的方法来评估科学图的标题,通过与人类学术专家评估和其他模型评估相比较,GPT-4 在评估中表现出色,甚至超过了计算机科学与信息学本科生的评估结果。
Oct, 2023
本文介绍了一种将视觉语义模型和大型语言模型相结合的技术,实现了对图像生成描述性文本的能力,且可用于图像算术和视觉类比等高级视觉能力的应用。
Nov, 2021
视频时间定位(VTG)目标是根据语言查询从未经修剪的视频中定位特定的时间段。我们提出了 VTG-GPT,这是一种基于 GPT 的零训练或微调的方法,以减少人为偏见和冗余信息,并实现与有监督方法相媲美的性能。
Mar, 2024
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能,并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。
Jan, 2024
本文介绍了一种多模态提示学习方案,该方案在单一统一的训练下平衡了监督和零样本学习的表现,并提出了视觉和文本方面的提示方案,通过保持预训练的骨干网络冻结,在保留现有的通用表示的同时实现了最先进的零样本效果。
Apr, 2023
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023