- 看見看不見的:視覺隱喻對視頻進行標註
我们介绍了一项新的视觉 - 语言(VL)任务,描述视频中的隐喻,并提出了一个低资源视频隐喻字幕系统(GIT-LLaVA),该系统在所提出的任务上获得了与现有技术相媲美的性能。
- SciCapenter: 支持科学图表的标题组合与机器生成的标题和评级
SciCapenter 是一个交互式系统,使用尖端的人工智能技术为科学图解提供多样的说明,通过评估说明质量的得分和综合检查表,显著降低了科学说明撰写的认知负荷。
- ICCV 2023 第一届科学图像标题生成挑战的解决方案
通过文本摘要生成图像标题,提取 OCR 信息,提取特定图像的信息,使用评估指标 BRIO 进行质量评估,获得最高的得分。
- 利用强化学习与人类反馈增强图像字幕生成
本研究探索了一种潜在的方法,通过使用 Flickr8k 数据集,将监督学习和强化学习与人类反馈相结合,以提高深度神经网络模型生成符合人类偏好的标题的性能,并引入了一种新的损失函数,能够基于人类反馈优化模型。
- 通过传感器数据、方程式和自然语言,在上下文操作学习时的刺激
在科学机器学习的不断发展中,上下文操作符学习在推理阶段从提示数据中学习操作符而无需进行权重更新方面显示出显著潜力。然而,当前模型对传感器数据的过度依赖可能会无意中忽视对操作符的宝贵人类洞察力。为了解决这个问题,我们将上下文操作符学习转化为多 - FigCaps-HF: 一种基于图像生成的图像描述生成框架与带人类反馈的基准
科学可视化中的图片标题生成模型,通过专家反馈进行优化,在读者偏好下取得了显著性能提升。
- ACLVisText:基于语义丰富的图表标题生成基准测试
本文介绍了 VisText 数据集,通过 fine-tune state-of-the-art 语言模型并应用 prefix-tuning 生成语义丰富、连贯的图表描述字幕, 经过比较能够接近最先进的图表字幕模型,并提出了可以指导未来工作的 - 零样本跨语言事件语义学习
本文研究跨语言识别图像标题中的语言学方面,通过计算模型可以准确预测词法方面,无需直接观察全部注释数据即可在尚未观察到的语言上进行词法方面的预测。
- 利用 Transformer 进行深度足球描述:数据集、语义相关损失和多级评估
本文通过深度学习为足球视频生成标题,并介绍了一个包含 22k 个标题 - 视频剪辑对和三种视觉特征(图像、光流和修复)的数据集,使用 transformer、ConvNets 和视觉语言特征融合的模型生成标题,并在句法、语义和语料库三个层面 - CVPR语言结构作为视觉场景图生成的弱监督
本文研究了在场景图生成中如何利用语言结构以及图像标题,通过弱化的监督模式提高模型性能,相比起传统的三元组监督模式,更具伸缩性且更适用于多模态数据。
- CVPR潜空间操纵的代理梯度场
本文提出了一种基于替代梯度场算法的方法,通过操纵关键点和说明文字等多维条件,搜索新的潜在编码,使得编辑后的图像符合目标条件。实验结果表明该方法在人脸属性调整任务方面表现优异,能够更好地处理图像属性的分离问题。
- EMNLPConcadia: 朝着有目的的基于图像的文本生成
该研究旨在通过引入 Concadia 数据集,研究图像描叙和标题的不同传达作用,并证明使用图片出现的文本背景来增强图像到文本模型的效果,从而提高实际应用过程中生成文本的有用性。
- 读者如何整合图表与说明:以线性图为例的研究
通过一项众包研究,我们探究了读者在同时考虑图表和标题时如何获取主要信息。研究发现,当图表和标题都描述具有高显著性的特点时,读者会将该特点作为主要信息,而当标题描述相对低显著的特点时,读者则更倾向于从图表中获取更显著的特点作为主要信息,并且外 - ICCV视觉问答的潜变量模型
本文提出使用潜在变量模型来解决视觉问答问题,将额外信息(如标题和答案类别)作为潜在变量进行训练,提高了问题回答性能。实验表明该方法在 VQA v2.0 基准测试数据集上优于其他方法。
- EMNLP图像对于多模态命名实体识别的角色研究
研究了多模态融合技术在多模态命名实体识别任务中的应用,通过分析不同技巧的融合效果,发现添加图片信息不总是有益的,并探究了使用字幕丰富上下文的作用。在三个社交平台数据集上的实验揭示了现有多模态模型的瓶颈,以及使用字幕的益处。
- CVPR基于多源弱监督的显著性检测
利用分类标签、字幕和未标记数据等不同类型的监督实现显著性检测模型的训练,通过 CNet 和 PNet 生成像素级伪标签进行训练,使用注意力传输损失和注意力一致性损失,使弱监督训练的模型性能得到提升,实验表明我们的方法与许多监督方法相比具有较 - 利用字幕的关注语义视频生成
该研究提出了一种网络架构,利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象,动作和交互,并将它们与长期和短期依赖结合起来,以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成,并在执行其他任务时表现出了良好的能力,如动作 - NIPS图像、标签和标题的深度变分自编码器
研发了一种新型变分自编码器,采用 Deep Generative Deconvolutional Network 作为潜在图像特征的解码器,采用卷积神经网络作为图像编码器,支持建模带标签 / 标题的图像;在测试时,通过对分布的平均来预测标签