- EMNLP通过视觉问答对将探测信号融入多模态机器翻译
本研究论文通过深入研究多模式机器翻译(MMT),探讨了 MMT 系统在源文本完整时对视觉信息的敏感性降低的现象,并提出了一种新的方法来生成并行的视觉问答(VQA)风格对,以促进更强大的跨模态交互。使用大型语言模型(LLMs),将 MMT 中 - KDDAdSEE:探讨图像风格编辑对广告吸引力的影响
通过在线广告的样式编辑和吸引力增强(AdSEE)的研究,我们探讨了语义编辑对广告图像是否能够影响或改变在线广告的受欢迎程度,并通过大规模数据集的离线和在线测试验证了图像风格与广告受欢迎程度之间的关系。
- ICCV隐私保护人脸识别基于随机频率成分
对面部图像的视觉信息和恢复进行隐私保护的研究,通过修剪人可察觉的低频分量来隐藏视觉信息,并提出了 PartialFace 的隐私保护人脸识别方法,通过在随机选择的频率分量上进行识别模型的训练和推理,实现了隐私保护目标和识别准确性的平衡。
- 虚拟环境的自动映射与视觉预测编码
预测编码为构建认知地图的统一算法框架,并能通过视觉信息定位环境中的位置。
- 新闻图片标题生成的视觉感知上下文建模
新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理,并超越之前的最佳性能表现。
- ICCV活动进展预测是否有进展?
活动进展预测方法的当前问题在于无法从复杂的和真实的视频数据集中提取有用的视觉信息,因此不能超越简单的帧计数基准线。为了解决这个问题,我们设计了一个精确控制的数据集,证明了当视觉信息与进展预测直接相关时,考虑的方法可以利用这些信息。因此,我们 - 利用知識圖譜進行零樣本物體無關狀態分類
我们研究了对象状态分类(OSC)作为一种零样本学习问题。我们提出了第一个不依赖于对象类别的对象无关状态分类方法(OaSC),该方法可以在不依赖于对象类别的知识或估计的情况下推断出某个对象的状态。通过在知识图谱(KGs)中组织和结构化知识,结 - 利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap
本文提出了一种用于创建图像标题的方法,通过采用额外的视觉信息,包括对象检测器、识别器等来丰富标题,经大型语言模型融合,生成全面的图像描述。实验证明,该方法有效,所提供的数据集显着提高了图像 - 文本检索。
- ACL学习想象力:视觉增强的自然语言生成
该论文提出一种名为 LIVE 的方法,利用预训练语言模型和图像生成模型相结合,使得模型可以像人一样通过想象场景帮助写作,该方法通过融合层实现了图像和文本的结合,并使用 CLIP 来确定文本能否调起想象力,实验表明该方法的有效性。
- IJCAI视频摘要中适合总结的视觉表现学习
提出一种新方法,利用文本和图像数据中摘要值得特征,并采用大规模生成预训练语言模型生成视频的多模态生成式摘要,相比其他基线方法,我们的方法在三个公共数据集上的表现是最好的。
- 时装百科全书 - 广告:你喜欢的广告是否透露了你的时尚品味?
本文基于 “Fashionpedia-Ads” 数据集,从广告图像的情感、视觉和文本信息多个角度,分析人们对不同领域的广告图像以及时尚产品图像的喜好,旨在研究广告与人们的时尚品味之间的相关性并促进数据可解释性研究。
- 基于信息受限视觉表示的分解领域学习
本研究的模型探究了人类学习复杂视觉信息的方式,包括压缩表示和因素表示,并提出了一种基于改进版本的 β 变分自编码器的人类因素表示学习模型,在学习速度和重构准确性之间进行了信息复杂度的平衡。
- X&Fuse: 文字图像生成中的视觉信息融合
介绍了一种能够在生成图像时根据视觉信息进行条件控制的通用方法 X&Fuse,其在三种不同的文本图像生成场景中展现了其潜力:通过召回与相关图像有关的图像(Retrieve&Fuse),利用被剪裁对象图像进行主体驱动生成(Crop&Fuse), - 基于图文自监督训练的多模态预训练模型泛化算法
本研究提出了一种多模态预训练泛化算法,有效克服了神经机器翻译中缺乏视觉信息和准确性等难题,通过搜索引擎从现有句子中寻找多张图片,通过视觉信息与文本的关系完成图文自监督训练任务,得到更加有效的视觉信息,并证明基于该算法的翻译效果比基线模型高出 - ACLLoRaLay: 长距离和布局感知摘要的多语言和多模态数据集
LoRaLay 是一个包含带有布局信息的长距离摘要的数据集合,拓展现有的英语数据集(arXiv 和 PubMed)并提供了四个覆盖法语、西班牙语、葡萄牙语和韩语的新数据集。在这篇文章中,我们提出了结合布局感知和长程模型的新基线,并获得了最先 - 基于可见地标的定位检索与定性位置特征
本论文针对环境特征不稳定、难以扩展和应用于人类等问题,通过使用定性场所标记 (QPS) 描述位置 / 场所,并提出了一种粗到细的位置检索方法来高效地识别观察者的潜在位置。
- 基于搜索引擎图像检索的多模态神经机器翻译
本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像,以加强神经机器翻译的性能。在多个数据集上进行的实验证明,该方法较强的基线实现了显著的性能提升。
- DuetFace: 频域信道分割协同保护隐私的人脸识别
本文介绍了 DuetFace,一种新颖的隐私保护人脸识别方法,该方法采用频域中的协同推断,通过利用高频通道的相似性,设计了一种信任分割频道的方法,并且通过插件交互块进行注意力转移,实现了对面部图像的保护和高效率识别。
- CVPRDiRA: 自监督医学图像分析的判别、修复和对抗学习
DiRA 是第一个将区分性、修复性、对抗性学习统一起来协同获取未标记医学图像的互补视觉信息,用于精细语义表示学习的框架,具有更强的泛化能力,超越了完全监督的 ImageNet 模型并提高了在小数据情况下的鲁棒性,是一种联合表示学习的通用机制 - WikiDiverse:一个多模态的实体链接数据集,具有多样化的上下文主题和实体类型
本研究提出了 WikiDiverse,一个高质量的人工注释的 Multimodal Entity Linking(MEL)数据集,利用该数据集提出了一系列好的基于 intra-modality 和 inter-modality attent