- 一个用于稳健异常检测的 “先恢复后分类” 的框架
通过分析故障案例,揭示了当前异常检测方法未能实现更高识别准确性的原因,并提出了一种新的 Recover-then-Discriminate (ReDi) 框架,通过自动生成的特征图和选择的提示图像来解决问题,该框架在两个挑战性异常检测数据集 - CVPRMRC-Net: 多尺度残差相关的 6 自由度姿态估计
我们提出了一种单次拍摄方法,可以从一张 RGB 图像中确定具有 3D CAD 模型的物体的 6 自由度姿态。我们的方法称为 MRC-Net,包括两个阶段,利用 MRC 层获得输入图像和第一阶段渲染的高低级对应关系。MRC-Net 采用具有共 - 多目标跟踪的分层视觉表示
我们提出了一种新的多对象跟踪的视觉分层表示范式,并通过关注对象的组合性视觉区域和与背景的对比背景信息,不仅仅局限于语义可视线索(如边界框),而是更有效地区分对象。这种组合性 - 语义 - 上下文层次结构灵活地集成到不同的基于外观的多对象跟踪 - 利用反射强度先验知识的单图像去除反射
该论文介绍了一种用于解决实际场景中的单幅图像去反射问题的方法,通过提取反射强度先验并结合反射去除网络的设计,在真实世界的基准测试上取得了最先进的准确率。
- EMNLP基于知识的视觉问答的简单基准
这篇研究论文介绍了一种基于知识的视觉问答(KB-VQA)问题的方法,通过在上下文中进行高效的学习,使用问题相关的标题作为上下文信息,而无需训练或访问外部数据库或 API,实现了最先进的准确度。
- CaSAR:接触感知骨骼动作识别
以供应资源有限的 AR/VR 眼镜界面和人机交互等应用为背景下,从第一人称视角进行骨架动作识别具有重要意义。本篇研究论文引入了一种称为 CaSAR(接触感知骨架动作识别)的新框架,它采用了手 - 物体交互的新表示形式来捕捉空间信息,并通过学 - 使用预训练通用语音模型的参数高效阿拉伯语方言识别学习方法
本文探讨了使用 Parameter-Efficient-Learning 技术将一种通用语音模型重新用于阿拉伯方言识别。通过在预训练设置下引入可训练的特征等不同设置来设计了多层编码器 - 解码器 GSM 架构,包括残差适配器和模型重新编程。 - T-former:一种高效的图像修复变形器
本文中,我们设计了一种新的基于注意力的线性结构,称为 T-former,用于图像修复,实验表明该方法在保持较低的参数数量和计算复杂度的同时,实现了最先进的精度。
- IJCAITPS++:基于自注意力机制的细板样条在场景文字识别中的应用
本文介绍了一种新的 TPS++ 变换,利用注意力机制进行文本纠正,提高了对视觉文本不规则性的处理能力并在公共基准测试中实现了最先进的识别精度。
- CVPR运用头脑:提升长尾视频识别
本文对长尾视频识别进行了研究,提出了新的视频基准数据集和一种名为 Long-Tail Mixed Reconstruction 的方法,可显著减少过拟合并取得了最新的平均分类精度。
- GCRE-GPT: 一种用于比较关系提取的生成模型
本文提出一种基于生成模型的比较关系提取器 (GCRE-GPT),能够直接从文本中高精度地提取出比较关系,并在两个数据集上取得了最先进的准确性。
- CVPR使用相关网络进行连续手语识别
提出一种卷积神经网络 CorrNet 来识别手语,并结合当前帧和相邻帧之间的人体轨迹,从而捕捉视频中人体动作的局部时空特征,进而在大型数据集中获得最先进的准确率。
- 大型语言模型是翻译质量的最先进评估工具
描述了基于 GPT 的翻译质量评估指标 GEMBA,可以用于有参照的和无参照的情况。研究了四个提示变体,并比较了两种方式下的性能表现,发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中,GEMBA - AAAIFreeEnricher: 无需额外成本的人脸关键点增强
本研究提出了一种通过现有的稀疏特征点数据集来丰富面部特征点密度的框架,具有弱监督的学习改进能力和适应扩展的特征点,最终在已有的面部对准网络中作为即插即用模块应用,可以在不增加成本的情况下提供最先进的测试精度。
- AAAI自我强调网络用于连续手语识别
本文提出自我强调网络(SEN)以突出信息区域提高手语和面部表情识别精度,通过轻量级子网络和注意力图动态增强特征,并用时序自我强调模块自适应突显关键帧,以减少计算量和昂贵的监督。基于 PHOENIX14,PHOENIX14-T,CSL-Dai - 在低成本下对大型模型进行差分隐私优化
本文提出了一种新的 Book-Keeping(BK)技术,用于实现现有的 DP 优化器,以降低计算成本,并在视觉和语言任务方面进行广泛实验,取得了 SOTA 精度。
- 通过文本块的语义分类检测套用文本
介绍了一种名为 SemText 的分层神经网络模型,它使用一种新颖的 HTML 标签、类名和文本块的语义表示来检测 HTML 模板,在三个已发表的新闻网页数据集上训练并微调,在 CleanEval 和 GoogleTrends-2017 中 - 基于动态键值存储增强的多步图推理方法用于基于知识的视觉问答
本文提出一种名为动态知识记忆增强多步图推理(DMMGR)的新型模型,能够在键 - 值知识记忆模块和空间感知图像图上执行显式和隐式推理,并在 KRVQR 和 FVQA 数据集上实现了新的最先进的准确性。
- CVPR通过轨迹查询和建议实现高效的视频实例分割
EfficientVIS 是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询 - 视频交互方法在空间和时间上关联和分割 RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频 - VISOLO:基于网格的时空聚合,实现高效的在线视频实例分割
本文提出了一种基于网格结构特征表示的新型单阶段框架,并引入协作操作模块来聚合可用帧的信息以丰富所有 VIS 子任务的特征,从而在所有 VIS 任务中高效地充分利用先前信息,实现了实时处理,并在 YouTube-VIS 2019 和 21 数