- 多模态大型语言模型对视频片段检索的惊人有效性
利用图像 - 文本预训练的多模态大语言模型(MLLMs)进行时刻检索,获得了令人惊讶的有效性,并且在时刻检索和时序动作定位任务上实现了最新的性能。
- 少样本高保真原型的医学图像分割
提出了一种新颖的 Detail Self-refined Prototype Network(DSPNet)用于构建全面表示目标前景和背景的高保真原型,以解决医学图像中具有复杂背景且对象不明显的情况下,已有模型在 few-shot 语义分割 - DaLPSR:针对现实世界图像超分辨率的损失对齐语言提示
本研究提出了利用退化对齐的语言提示来实现准确、精细和高保真度的图像恢复,通过图像恢复提示对图像的退化程度进行自动辨别,同时结合预训练的多模态大型语言模型获取与人类感知紧密相关的高级语义先验,综合比较分析表明,该方法在图像感知质量上达到了新的 - 从 Wasserstein 梯度流的角度重新思考数值制表数据补全的扩散模型
在数值表格数据集领域,我们引入了一种被称为 KnewImp 的新的原则方法,它通过 Wasserstein 梯度流框架以及重现内核希尔伯特空间,解决了扩散模型在缺失数据插补中存在的不准确插补和训练困难等问题,并通过广泛实验证明了该方法明显优 - 探索联邦学习的实用性:从通信的角度进行调查
调查分析了通信高效的联合学习方法,定义了通信效率的度量方法并提供了系统全面的分类和评述,讨论了提高联合学习系统通信效率的未来研究方向。
- 网格去噪变换器
我们提出了一种名为 SurfaceFormer 的创新的基于 Transformer 的网格去噪框架,通过引入本地表面描述符以及双流结构和自注意力机制,实现了对网格噪声的有效去除。该方法在客观和主观评估中均超过了现有的最先进方法,标志着网格 - MVP-Shot:多速度渐进对齐框架在少样本动作识别中的应用
通过提出一种多速度渐进对齐的方法,在多个常见的少样本动作识别基准测试上,我们的方法在精度上超越了现有的最先进方法。
- 视觉增强动态语义原型用于生成式零样本学习
通过充分利用视觉增强知识进入语义条件,我们提出了一种名为 VADS 的新型视觉增强动态语义原型方法,用于增强生成器学习准确的语义 - 视觉映射,实验证明我们的方法在三个知名数据集上取得了卓越的 CZSL 和 GZSL 性能,并且优于其他最先 - VMambaMorph:一种基于 Visual Mamba 的带有跨扫描模块的可变形三维图像配准框架
VMambaMorph 是一种基于 VMamba 和 CNN 的网络,专门为 3D 图像配准设计,利用公共基准脑 MR-CT 配准数据集验证了其与当前最先进方法的竞争性配准质量。
- 面向未来的班级增量学习
通过使用预训练的文本到图像扩散模型生成未来类别的合成图像并使用它们训练特征提取器,我们提出的方法改进了无典范类增量学习的最新方法,特别是在只包含少量类别的最困难的情况下。此外,我们还表明使用未来类别的合成样本比使用不同类别的真实数据能够实现 - CVPR红外小目标检测的尺度和位置敏感性
使用更有效但结构简单的损失函数提高检测性能,通过引入基于目标尺度的权重和基于目标中心点的惩罚项处理现有损失的局限性,并设计了一个简单的多尺度头部结构,通过在每个预测尺度上应用 Scale and Location Sensitive (SL - COLINGJMultiWOZ:一个大规模的多领域任务导向对话日语数据集
为了推动日语任务导向对话系统的研究和发展,本研究构建了 JMultiWOZ,这是第一个规模较大的多领域任务导向对话数据集。通过使用 JMultiWOZ 评估英语基准数据集 MultiWOZ2.2 和最新的大型语言模型 (LLM) 方法的对话 - CVPRBlur2Blur: 未知域上无监督图像去模糊的模糊转换
本研究提出了一种创新的框架,旨在训练一个针对特定相机设备的图像去模糊算法,该算法通过将难以去模糊的模糊输入图像转化为更加易于去模糊的另一个模糊图像来工作。该模型基于一个模糊到模糊的转换过程,利用目标相机设备捕获的清晰和模糊图像的非配对数据。 - CLIP-VQDiffusion: 基于 CLIP 和向量量化扩散模型的无语言训练文本生成图像
本文提出了利用预训练的 CLIP 模型来实现多模态文本 - 图像表示和强大的图像生成能力的 CLIP-VQDiffusion 模型,在 FFHQ 数据集上,该模型的 Clipscore 得分超过了之前最先进的方法 4.4%,并且即使在分布内 - CVPR不足标签的开放式视频问题回答的排名蒸馏
本文针对开放式视频问题回答进行了研究,提出了一种简单而有效的排名蒸馏框架 (RADI),用于解决现有标注问题的缺陷,并且在五个流行基准测试中与最先进的方法相比,表现出色。
- CPGA:用于压缩视频质量增强的编码先验引导聚合网络
利用编码先验引导的聚合网络(CPGA)通过利用编码先验中的时间和空间信息,成功提升了压缩视频质量增强(VQE)任务的结果,并引入了全新的 Video Coding Priors(VCP)数据集,证明了该方法在 VQE 任务中的卓越性能。
- 背包里装满技能:多角度任务视角下的自我中心视频理解
为了将对视频流的整体感知有效地传递给智能机器,我们通过学习将概念关联和来自不同任务的抽象知识协同利用来学习新技能,提出了一种统一的视频理解方法,它结合了人类行为的共享时间建模和最小开销,支持多个下游任务及在学习新技能时的合作,并通过四个 E - 反射去除基于极化到极化网络的方法
这篇论文研究了反射去除的问题,提出了使用极化图像进行反射分离的极化 - 极化方法,并采用循环框架来逐步优化反射和传输分离的结果,实验证明该方法优于其他现有方法。
- MambaMIR:一种用于联合医学图像重建和不确定性估计的任意屏蔽的 Mamba
本研究介绍了 MambaMIR 模型及其基于生成对抗网络的变体 MambaMIR-GAN,利用 Mamba 模型的优势,如线性复杂度、全局感受野和动态权重,通过创新的任意掩码机制使 Mamba 适应图像重建任务,并提供蒙特卡洛法的不确定性估 - 连续搜索空间的活动水平集估计与理论保证
在连续搜索空间中,本研究提出了一种新的算法,通过构建一个置信度测量函数的获取函数,无需离散化直接进行工作,具有理论上的收敛性和在合成和真实数据集上优于现有方法的性能。