- AlignedCut:脑引导的通用特征空间上的视觉概念发现
使用大脑 fMRI 响应预测作为训练目标,我们研究了视觉数据、深度网络和大脑之间的有趣联系,发现通过不同目标训练的深度网络共享通用的特征通道,将这些通道聚类成不同的大脑区域,产生语义相关的物体片段,同时通过通道聚类发现了不同网络层级处理视觉 - 基于视觉输入的故事生成:技术、相关任务和挑战
从视觉数据中创建引人入胜的叙述对于自动化数字媒体消费、辅助技术和互动娱乐至关重要。该研究综述了用于生成这些叙述的方法学,重点讨论其原理、优势和局限性。该综述还涵盖了与自动故事生成相关的任务,如图像和视频字幕以及视觉问题回答,以及没有视觉输入 - 使用三维先验增强二维表示学习
通过在训练过程中直接强制将强大的三维结构先验性知识融入模型,我们提出了一种新的方法来加强现有的自监督学习方法,并通过一系列数据集实验证明了我们的三维感知表示比传统的自监督基线更加稳健。
- 基于 LLM 的具有视觉信息和面向预测的具身化世界模型
在这项研究中,通过探索利用视觉数据和 LLM 作为世界模型的可能性,以改善嵌入式人工智能的性能,实验结果表明 LLM 可以从视觉数据中提取必要信息,并利用这些信息提高其作为世界模型的性能,同时还指出设计的提示可以发挥 LLM 作为世界模型的 - 灵活的深度神经网络在执法机构中用于确定:何处、何人和何物的图像分析
由于对有效安全措施的需求增加以及摄像头在商业产品中的集成,今天产生了大量的视觉数据。执法机构正在检查图像和视频,以查找激进化、恐怖组织的宣传和暗网市场上的非法产品。本文通过深度卷积神经网络(CNN)的视觉概念检测来理解图像内容,并提出了五个 - SEED-X:统一多粒度理解与生成的多模态模型
模态基础模型在视觉语言理解和生成方面取得了显著的进展,但是存在应用能力和真实世界适应性之间的差距。本文提出了一种统一和多功能的基础模型 SEED-X,通过整合两个增强特性来弥合这一差距:(1)理解任意大小和比例的图像,(2)实现多粒度图像生 - 基于视觉和几何特征的大词汇量阿拉伯口语识别的交叉注意力融合
利用视觉数据识别口型以识别口述单词的技术(lipreading)是研究的热门话题之一,本研究提出了一种基于交叉注意力融合的方法,通过整合嘴部区域的视觉和几何特征来预测阿拉伯语单词的出现,实验证明了该方法在识别阿拉伯语单词方面的有效性和鲁棒性 - 文本到图像跨模态生成:系统综述
通过 “跨模态生成” 这一视角回顾了关于从文本生成视觉数据的研究,对各种针对输入文本并产生视觉输出的方法进行了比较和对比,并提出了在领域中的常见模板,逐一探讨了图片 - 文本方法、视频 - 文本方法、图片编辑、自监督和基于图形的方法。对 2 - 水平联邦计算机视觉
我们提出了使用联邦 Faster R-CNN (FRCNN) 和联邦完全卷积网络 (FCN) 进行目标检测、识别和图像分割的联邦实现方法,以应对视觉数据的数量快速增加、数据分散存储和隐私保护的挑战。
- PlanarNeRF:使用神经辐射场在线学习平面基元
通过在线学习检测稠密的三维平面,PlanarNeRF 在计算机视觉中具有重要作用,它的灵活架构允许在 2D 监督和自监督解决方案中有效学习,显著提高了训练效率。
- 序列建模为大型视觉模型实现可扩展学习
我们引入了一种新颖的顺序建模方法,可以学习大规模视觉模型(LVM)而无需使用任何语言数据。通过将原始图像、视频以及注解数据源转化为 “视觉句子” 的公共格式,我们可以表示各种视觉数据,并通过训练模型来解决多个视觉任务。
- AI 增强的客户体验推荐系统:一种新颖的图像到文本方法
利用人工智能为时尚推荐系统提供细粒度的视觉解释,自动为顾客上传的图像生成有意义的描述,引导从全球时尚产品目录中检索出符合视觉特征的类似替代品,进而实现个性化的时尚推荐,并在超过 100,000 张已分类的时尚照片数据集上进行训练和评估,物体 - ICCV使用代码重写家族来提高无监督视觉程序推断
通过代码重写来改进从视觉数据中推断程序的系统,我们提出了一种名为 Sparse Intermittent Rewrite Injection (SIRI) 的无监督引导式学习框架,并设计了一系列适用于可视化编程领域的代码重写器,最终展示了使 - 增强现实中的紧急沟通
通过训练两个代理器,我们提出了一种紧跟数字孪生和元宇宙潮流的移动增强现实系统,并在其中嵌入一种新型的语义通信框架,可以通过极小数据量的消息进行抽象视觉数据的传达和交流,从而在增强现实中提高通信效率。
- FathomNet2023 竞赛数据集
海洋科学家收集了图像数据进行研究海洋生物多年来,这些图像和视频在基础科学和环境监测任务中非常有价值。然而,目前没有能够处理海洋视觉采样中普遍存在的样本种群的极端变异性、图像质量和栖息地特征的工具。为了充分利用海洋中的视觉数据,创建能够识别图 - FICNN:深度卷积神经网络解释框架
本文提出了一种卷积神经网络模型解释框架,指出了模型解释和解释任务的差异,定义了用于表征解释方法的六个因素,并讨论了现有解释方法和评估协议对它们的验证,以及提出了可能出现的研究问题。
- 可解释的视觉异常检测
本文介绍了针对图像和视频的异常检测方法的可解释性研究,包括基本背景、当前可解释方法、综合文献细节及未来方向。
- 使用多种视觉模态预测房地产属性(包含缺失数据)
研究通过视觉数据,特别是室内和室外照片,预测高级房地产属性的潜力,并设计了三个模型进行评估和不同融合策略的处理。
- T2CI-GAN:使用生成对抗网络进行文本到压缩图像的生成
本文提出一种基于 DCGAN 的压缩图像生成方法,旨在实现对文本描述的压缩视觉数据直接生成,并在压缩形式下实现了最先进的性能。
- 基于层次融合的多模态电子商务产品分类
本研究提出了一种多模态模型,通过使用多个神经网络模型从文本(CamemBERT 和 FlauBERT)和视觉数据(SE-ResNeXt-50)提取的特征,并采用简单的融合技术,显著提高了单一模态模型的性能和类似模型性能,我们实验了多种融合技