- 利用视频中的音频和视觉内容进行相机模型识别
提出了一个用于通过音频、视觉内容或两者的融合来识别设备的框架,使用了卷积神经网络进行设备识别问题的分类,并通过实验证明,在独立使用音频或视觉内容时,该框架表现出有希望的分类性能。此外,融合结果虽然并不始终超过单个模态,但展示了增强分类性能的 - LLavaGuard: 基于 VLM 的视觉数据集整理与安全评估保护
通过引入基于 VLM 的安全模型 LlavaGuard,我们设计了可用于评估视觉内容的安全性合规性的多功能框架。我们使用高质量的视觉数据集对 LlavaGuard 进行了调试,其中涵盖了广泛的安全分类工具以在上下文感知的安全风险中进行 VL - 影响用户使用 SORA 的因素
Sora 重新定义了视觉内容的创建方式。本研究通过引入感知逼真度和创新价值,扩展了 UTAUT2 对用户使用文本到视频 (T2V) 模型的意愿的理解。研究结果表明,所有假设的关系都得到支持,感知逼真度是最具影响力的驱动因素,其次是创新价值。 - 多模态大型语言模型的幻觉:一项调查
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对 MLLMs 中幻觉的理解,并激发该领域的进一步发展。
- 大型视觉语言模型的评估是否正确?
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于 LLM 中的世界知识。2)在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题,我们提出了 - Q-Align: 使用离散文本定义的级别教导 LMMs 进行视觉评分
通过模拟人类评级中的主观过程并使用文本定义的等级来教授大型多模态模型,该方法在图像质量评估、图像美学评估和视频质量评估任务上实现了最先进的性能,并提出了将这三个任务统一到一个模型中的 OneAlign 模型。
- 基于 StyleGAN 先验的可扩展人脸图像编码:朝向人机协作视觉压缩
利用 StyleGAN 先验,本研究探讨了利用派生的分层表示构建有效的可伸缩编码范式以满足人和机器的需求。通过逐步学习三层编码分层语义表示,构建机器智能和人类视觉感知支持的渐进式范式,并通过分层可伸缩熵转换器降低层间冗余,达到高效压缩目标。 - InfoVisDial: 大型多模态和语言模型的信息可视对话数据集
我们构建了一个名为 InfoVisDial 的视觉对话数据集,通过将大规模多模态模型(如 GIT)和语言模型(如 GPT-3)进行有效的数据收集,利用可生成信息丰富的对话,最后通过人工筛选生成的对话来证明其覆盖了信息丰富且多样化的对话主题, - 深度神经网络和双向动态时间扭曲算法的半监督三维视频信息检索
该论文提出了一种新颖的半监督深度学习算法,用于基于视觉内容检索相似的 2D 和 3D 视频。该算法采用深度卷积和递归神经网络与动态时间扭曲作为相似性度量,能够处理大规模视频数据集,并根据图形帧和内容检索与给定查询视频片段最相关的视频。该方法 - 可持续透明度在推荐系统中的应用:基于贝叶斯排序的图片解释能力
为了解决推荐系统中透明性和用户信任的问题,研究人员提出了一种名为 BRIE 的新模型,通过采用基于贝叶斯对比排序的更适当的学习目标,实现比现有模型更卓越的性能,同时具有较高的效率。
- 基于前缀调整的双门控融合技术用于多模态关系抽取
本文提出了一种新的多模态关系提取框架,称为 DGF-PT,该框架旨在更好地捕捉文本、实体对和图像 / 对象之间的更深层次的相关性,以挖掘更有用的信息,并且通过引入对实体类型的限制,更好地过滤候选关系。
- ACL多样式图像字幕的样式感知对比学习
本文提出了一种针对多风格图像字幕生成的样式感知对比学习的方法,该方法基于对潜在与风格相关的视觉内容的对比学习,提出了一个样式感知的视觉编码器以及三种检索方案。实验结果表明,该方法的性能达到了最先进水平。
- EMNLPLexi: UI 语言的自监督学习
本研究探索如何利用 UI 说明书中的图像来学习 UI 屏幕及其组件的通用视觉 - 语言表示,并提出了一种名为 Lexi 的预训练模型,该模型可处理 UI 屏幕的独特特点,包括其丰富的文本和上下文敏感性。通过创建包含 114k UI 图像及其 - 生成式人工智能对视觉内容营销未来的影响
将视觉内容与人工智能相结合是获取和保留忠实客户的关键,没有它将在产品的总体营销策略中引起警惕,并最终导致公司的市场份额减小。
- AAAI探索 CLIP 用于评估图像外观和感觉
本文介绍了如何利用 CLIP 模型中的丰富视觉语言先验,以零样本方式评估图像的质量感受和抽象感知,实验结果表明 CLIP 具有很好的泛化能力。
- ECCVVizWiz-FewShot: 视觉障碍人士拍摄的图像中物体定位
介绍了一个来自摄影师的 few-shot localization 数据集,包括近万个分类为 100 个类别的图像分割,在人们拍摄的 4500 张图像中,我们的数据集是第一个定位物体的孔隙、显示对象的尺寸范围很大,并且我们的对象中文字出现的 - 生成模型作为多视角表示学习的数据源
研究了从黑盒生成模型而不是数据直接学习通用视觉表达式的设置,通过该生成器的样本输出训练,比较了几种可应用于该设置的表征学习方法,使用生成器的潜空间来生成相同语义内容的多个 “视图”,表明多视图数据可以自然地用于识别正面对和负面对。
- CVPRDeFLOCNet: 灵活低层控制的深度图像编辑
本文介绍了一种名为 DeFLOCNet 的卷积神经网络,其采用深编码器 - 解码器结构,在每个跳跃连接层中设计结构生成块,通过在 CNN 特征空间注入用户意图控制,从而实现精确的图像编辑。实验结果表明,DeFLOCNet 可以有效地将不同用 - CVPR场景图生成的语义歧义概率建模
本研究提出了一种新的 Probabilistic Uncertainty Modeling(PUM)模块,通过对不确定性建模实现具有多样性的场景图预测,并与 ResCAGCN 模型相结合,在 Visual Genome 基准测试中取得了最先 - QuerYD:一个具有高质量文本和音频叙述的视频数据集
QuerYD 是一个用于视频检索和事件定位的大规模数据集,其独特之处在于每个视频都提供了两个音轨:原始音频和视觉内容高质量的口述描述,该数据集基于 YouDescribe 项目,其音频和文本注释都是高度详细和与时间对齐的。该数据集可以用于训