- KDD通过注入上下文化的子结构信息来提升 K - 跳消息传递 GNNs 的表现力
本研究探讨了基于图神经网络的 K-hop 传递模型的局限性,并提出了子结构编码函数,以提升其表达能力,并注入情境化子结构信息增强表达能力。实证结果表明,该方法在多个数据集上取得了新的最优表现或可比较的性能。
- DICE:从单一图像捕捉手脸互动的端到端变形
DICE 是一种基于 Transformer 的全新的、从单张图像中重建具有变形的手 - 脸互动的方法,其特点是通过将本地变形场和全局网格顶点位置的回归分离到两个网络分支,从而增强精确而稳健的手 - 脸网格恢复中的变形和接触估计。我们的实验 - CVPR高分辨率开放词汇对象 6D 姿态估计
Horyon 是一种基于开放词汇量的 Vision-Language Model 架构,通过使用自然语言描述来解决视觉中六维位姿估计任务中未见过对象之间的相对位姿估计问题,并在四个数据集上实现了最先进的性能,优于之前的方法。
- 补偿量化误差:使权重分层以互相补偿
Emergent Large Language Models (LLMs) use their extraordinary performance and powerful deduction capacity to discern fro - 矢量化表示梦想家(VRD):辅助多智能体运动预测
自主驾驶车辆的轨迹预测是一个关键问题,本文引入基于向量化世界模型的 VRD 方法,通过结合传统训练和新型训练流程,实现了多智能体运动预测的优异性能。
- 通过扩散模型进行手术三元组识别
在本文中,我们提出了 DiffTriplet,一种利用扩散模型的新的生成性手术三元组识别框架,通过迭代去噪来预测手术三元组。我们的 Diffusion 框架提出了两种独特的设计来解决三元组关联的挑战,即关联学习和关联引导。实验证明,我们的方 - 大型语言模型的元推理
Meta-Reasoning Prompting(MRP)是一种受人类元推理启发的用于大型语言模型(LLMs)的新型高效系统提示方法,通过动态选择和应用不同的推理方法来优化性能和计算效率,实现了在不同任务中达到或接近最先进性能的结果。
- 自监督预训练和微调用于单目深度和视觉里程计
我们提出了一种使用自监督变换器模型进行单目深度和视觉里程计估计任务的方法,分为两个步骤:第一步是使用跨视角补全目标(CroCo)进行通用预训练以学习 3D 几何,然后在非标注视频上进行自监督微调。我们展示了我们的自监督模型可以通过使用视觉变 - 探索全模态大规模预训练的极限
我们提出了建立全模态智能的方法,能够理解任何模态并学习通用表示。通过提出一种可扩展的预训练模式 —— 多模态上下文(MiCo),我们能够在预训练过程中扩大模态数量、数据量和模型参数。MiCo 预训练模型在多模态学习中展现出重要的新能力,并在 - 基于一致性标签生成器和协同展开网络的真实世界图像去雾
真实世界图像去雾任务中,我们首先引入了一个协作展开网络来恢复受雾影响的细节,同时提出了第一个面向去雾任务的迭代式均值教师框架,该框架可以生成高质量的伪标签用于网络训练,并通过优化标签池来挑选高质量的候选样本并分配权重以优先选择不受雾影响的区 - AV-DiT:联合音频与视频生成的高效音频 - 视觉扩散变压器
通过使用基于 Transformer 的 diffuser,我们介绍了 AV-DiT,一种用于生成高质量真实视频的音频 - 视觉扩散变压器,具有多模式内容创作的显著效能,并在联合音频 - 视觉生成中具有最先进的性能。
- 深度神经网络的并发训练和层剪枝
我们提出了一种在神经网络早期训练阶段识别和消除不相关层的算法。与权重或滤波器层剪枝相比,层剪枝能够减少神经网络中更难并行计算的顺序计算。我们采用了一种结构,在非线性网络部分周围使用剩余连接,使非线性部分进行剪枝后仍然能够在网络中传递信息。我 - ACL仅解码流式变换器用于同声传译
在这篇论文中,我们介绍了一种名为 Decoder-only Streaming Transformer (DST) 的 Decoder-only SiMT 模型,该模型通过编码源前缀和目标前缀的位置来确保目标前缀的位置不受源前缀扩展的影响, - 大型语言模型的对抗性矩匹配蒸馏
通过匹配教师行为的行动 - 价值矩关系,我们提出了一种对大型语言模型进行知识蒸馏的模仿学习策略,使用对抗训练算法来同时估计行动 - 价值矩距离并优化学生模型的政策,以此最小化距离,并在任务无关和任务特定实验中取得了新的最优性能。
- 基于任务自适应路由的一体化医学图像恢复
提出了一种任务自适应路由策略的全能医疗图像恢复网络,实现了状态 - of-the-art 性能在 MRI 超分辨率、CT 降噪和 PET 合成等三个医疗图像恢复任务中。
- 服装更换人员再识别的内容和显著语义协作
我们提出了 Content and Salient Semantics Collaboration(CSSC)框架,通过有效利用行人图像中存在的丰富语义而无需任何辅助手段,实现了衣物变换的人物重识别。我们的方法通过提取关于内容和显著语义的稳 - 基于时空一致的光照和反射分解的低光视频增强
通过引入创新的基于 Retinex 的视频分解策略,结合动态相邻帧的相关性和场景级连续性约束,以及双结构增强网络的交互机制,该研究实现了在低光环境下视频的增强和一致分解,超越了现有的方法,达到了最新的性能水平。
- 时间表之外的道路
不依赖于优化停止步骤 T 的现有学习率调度比依赖 T 的学习率调度性能更好。我们提出了一种完全避免使用调度的方法,同时在从凸问题到大规模深度学习问题的广泛问题范围内展示了与调度相比的最先进性能。我们的无调度方法与带有动量的标准优化器没有额外 - 重新思考和加速图形精简:一种无需训练的带类别分割方法
通过 Class-partitioned Graph Condensation (CGC) 方法,能够在更有效的压缩过程中实现最先进的性能。
- 基于注意力过滤的医学图像分割的多维 Transformer
提出了一种面向医学图像分割的多维注意力变换器 (MDT-AF) 方法,通过重新设计补丁嵌入和自注意机制来解决医学图像分割中存在的低信噪比和特征表示容量有限的问题,并取得了当前最先进的性能。