RayTran：基于光线追踪变换器的多物体视频姿态估计和形状重建

ECCVMar, 2022

RayTran：基于光线追踪变换器的多物体视频姿态估计和形状重建

RayTran: 3D pose estimation and shape reconstruction of multiple objects from videos with ray-traced transformers

Michał J. Tyszkiewicz, Kevis-Kokitsi Maninis, Stefan Popov, Vittorio Ferrari

TL;DR提出了一种基于 Transformer 的神经网络体系结构，用于从 RGB 视频进行多物体 3D 重建和检测，通过全局 3D feature 网格和特定于视图的 2D 网格交替表示其知识，利用关于图像形成过程的知识来显着减少注意力权重，附加 DETR 风格的头部进行对象检测并预测其 3D 姿态和形状。该架构是单级、端到端可训练的，并且可以从多个视频帧全面地推理场景。在 Scan2CAD 数据集上展示了比其他方法更好的性能。

Abstract

We propose a transformer-based neural network architecture for multi-object 3d reconstruction from RGB videos. It relies on two alternative ways to represent its knowledge: as a global 3D grid of features and an

3d reconstruction transformer-based neural network object detection video processing attention mechanism

发现论文，激发创造

基于辐射校正的光学建模方法用于去除城市场景 TLS 点云中的反射噪声

基于几何光学模型和物理性质的反射噪声消除算法，提高了 TLS 点云中的虚拟点检测精度，并通过在 3DRN 基准数据集上的实验证明了算法的有效性。

Jul, 2024

运动与注意力：视频运动提示

运用修改的 Sigmoid 函数作为注意机制，激活和调节来自帧差分图的运动信号，通过逐对关注图与原始视频帧的 Hadamard 积突出感兴趣的运动随时间的演变，用于学习改进的运动提醒，并作为模型与视频数据之间的适配器，弥合传统的 ' 盲目运动提取 ' 与提取相关感兴趣运动之间的差距。

Jul, 2024

未知相机投影仪对的室内三维重建

通过利用室内场景中常见的未知立方体角点，结合已知的摄像机主点，我们提出了一种简单而可靠的方法，可以从仅有的两个视角中可靠地恢复相机 - 投影仪对的内参，并实现直接的三维重构。该方法在传统方法和基于学习的对应方法上具有明显的优势，并展示了在没有主动照明的情况下解决稀疏视图的运动结构等类似任务的潜力。

Jul, 2024

面向脑 - 眼 - 计算机的小目标检测的自适应模态平衡在线知识蒸馏

利用脑机接口从人脑中提取高级认知，结合具备高效特征提取能力的计算机视觉技术，可实现对航空图像中微弱目标更强大、更准确的检测。本文首先构建了基于脑眼计算机的航空图像目标检测系统，通过基于眼动追踪的慢速串联视觉呈现范式在脑电图中激发事件相关电位（ERP）信号，并将眼动数据和图像数据构建成脑电图 - 图像数据对。然后，提出了一种自适应模态平衡的在线知识蒸馏（AMBOKD）方法，用于利用脑电图 - 图像数据识别微弱目标。AMBOKD 利用多头注意力模块将脑电图和图像特征融合，构建具备全面特征的新模态。为了提升融合模态的性能和鲁棒能力，采用端到端在线知识蒸馏实现模态之间的同时训练和相互学习。在学习过程中，提出了一种自适应模态平衡模块，通过动态调整各种模态的重要性权重和训练梯度来确保多模态平衡。通过与现有先进方法的比较，验证了我们方法的有效性和优越性。此外，对公共数据集进行的实验和在真实场景中的系统验证也证明了提出的系统和设计方法的可靠性和实用性。

Jul, 2024

用于高效少样本个性化目标检测的跨架构辅助特征空间转换

我们设计了一种称为 AuXFT 的少样本 IPOD 策略，通过引入一种条件粗粒度到细粒度的少样本学习器，改善了现有的对象检测器的个性化效果，同时通过 Translator 模块生成辅助特征空间，实现了个性化而不降低检测器的性能。我们在三个公开数据集和一个自行设计的 IPOD 基准测试集上验证了 AuXFT，在所有考虑的情境中都取得了显著的增益，实现了极佳的时间复杂度和性能的权衡：AuXFT 在仅占推理时间的 32％、VRAM 的 13％和模型尺寸的 19％的情况下达到其上限的 80％性能。

Jul, 2024

全局 - 局部关注机制的关系分类

本文介绍了一种新颖的全局 - 局部注意机制用于关系分类，通过将全局注意力与局部关注度相结合来提升全局关注度。此外，我们提出了创新的硬与软定位机制，以识别局部注意的潜在关键字。通过同时融入硬和软定位策略，我们的方法对有效关系分类的语境线索提供了更加细致全面的理解。我们在 SemEval-2010 任务 8 数据集上的实验结果显示了我们的方法相对于前期关注机制的优越性能。

Jul, 2024

EndoSparse: 内窥镜场景的实时稀疏视图合成利用高斯散点技术

提出了一种名为 EndoSparse 的框架，通过利用多个基础模型的先验知识，解决了在临床环境中只有稀疏观测数据的情况下精确恢复 3D 表示的稀疏性挑战，显着提高了在挑战性稀疏视图条件下的几何和外观质量，是神经 3D 重建在实际临床环境中实用部署的稳定进展。

Jul, 2024

对象检测的形式验证

利用形式验证来确保计算机视觉模型的安全性，针对图像分类进行了拓展，提出一种一般性的方案来证明物体检测模型的鲁棒性，并提供了与最先进的验证工具兼容的实现策略。

Jul, 2024

DroBoost: 一种智能评分和模型增强方法用于无人机检测

无人机检测是一项具有挑战性的物体检测任务，其可见性条件和图像质量可能不利，由于复杂背景、小的可见物体和难以区分的物体而使检测变得困难。该研究提出了一种基于 YOLOv5 的无人机检测方法，利用实际和合成数据以及基于卡尔曼滤波的追踪器跟踪检测并增加其置信度，同时通过结合多种改进策略来提高检测性能。该技术在无人机与鸟类对抗竞赛中获得了第一名。

Jun, 2024

一个用于双模态情感分类的简单基于注意力机制

在本文中，我们提出了基于双模态深度学习结构和注意力机制的情感分类方法，使用文本和语音数据进行训练和测试，并报告了不同结构的详细细节和性能分析结果。研究结果表明，使用不同类型数据（文本和语音）训练的深度学习结构优于仅使用文本或语音训练的结构，并且我们提出的基于注意力机制的双模态结构在情感分类中优于现有的系统。

Jun, 2024