- 基于双流注视的主动视觉学习
基于 “双流假设” 的二元流视觉学习框架通过模拟人类视觉皮层的神经处理机制,利用深度神经网络来处理输入图像,实现了物体属性的预测和边界框的定位。
- 基于多尺度模板匹配、背景减除和二值图像分析的手势识别
采用多尺度模板匹配的手部形状分类方法,结合背景减法提取手部对象的二值图像,从而获取关键特征,如质心和边界框,该简单方法在基本手部形状分类任务中表现出有效性,为简单的人机交互场景中的潜在应用奠定了基础。实验结果突出了该系统在受控环境中的能力。
- 面向主题的视频字幕生成
通过对用户兴趣的主题进行视频描述一直是一个长期目标。为了解决这个问题,我们提出了一种新的视频字幕任务,即面向主题的视频字幕,允许用户通过边界框指定描述的目标。为了支持这个任务,我们基于两个广泛使用的视频字幕数据集 MSVD 和 MSRVTT - 走向强健而富表现力的全身人体姿势和形状估计
我们提出了一个新的框架来增强全身姿势和形状估计的鲁棒性,其中包括三个模块以从三个角度解决上述挑战:1)定位模块,2)对比特征提取模块,3)像素对齐模块,并通过全面实验证明了该框架在身体、手、脸和全身基准测试上的有效性。
- 揭示参照理解对多模态语言模型的力量
该论文提出了一种新的方法来增强多模态大语言模型的指称理解能力,通过使用边界框的坐标表示图像中的指称对象,并将其转化为特定格式的文本,使模型能够以自然语言处理坐标,同时通过自洽引导方法和参数高效的调整框架进一步提升指称理解能力。实验结果表明, - RTrack: 通过伪框探索加速视觉目标跟踪的收敛
本文介绍了一种名为 RTrack 的新型目标表示基准追踪器,该追踪器利用一组样本点来获取伪边界框,并自动排列这些点以定义空间范围和突出显示局部区域。我们还对训练潜力进行了深入研究,并引入了一对多的前导分配策略,该方法在 GOT-10k 数据 - 迈向视觉语言跟踪的统一标记学习
该研究提出了一种简单、灵活且有效的视觉 - 语言(VL)跟踪管道,称为 MMTrack,它将 VL 跟踪视为一个标记生成任务,并通过将语言描述和边界框序列化为一系列离散标记来实现。通过避免多个子任务的学习和手动设计的损失函数,该设计范式极大 - PartSLAM:无监督基于部件的场景建模,用于快速简洁地地图匹配
本文研究一种基于部分场景建模的地图匹配方法,使用常见模式发现技术和随机视觉短语技术进行实现,大大提高机器人视觉任务中地图匹配技术的可扩展性。
- 面向文档图像的 Few-shot 实体识别:鲁棒的图神经网络方法
该论文提出了一种新模型 LAGER,该模型基于文档中单词之间的拓扑相邻关系建立边缘,并通过引入图神经网络层将其结合到预训练语言模型中,从而有效地提高了实体识别的性能。
- 使用交并比损失的多边形实时实例分割
本文对 CenterPoly 进行改进,提出了一种新的基于区域和顺序的损失函数,针对不同的坐标系评估了多边形掩模的影响,实现了一种实例分割方法,使用回归损失和基于区域的损失的组合可显著提高结果.
- SceneGenie: 基于场景图引导的扩散模型图像合成
本文提出了一种针对扩散模型的新型引导方法,通过边界框和分割映射信息进行推理时间的采样过程,有效提高了文本到图像生成的准确性和分辨率,从而在场景图像生成方面取得了更好的表现和效果,并在公共基准测试中超越了基于场景图像和文本的扩散模型。
- 带可见状态的边界框注释
提出了一种通过移动相机进行捕捉的自动化注释方法,并通过游戏化应用程序特性来捕获多视图图像数据集,降低了人们的心理负担和时间压力,从而增加了参与度。
- CVPR六自由度物体姿态估计刚性感知检测
提出了一种基于 6D 目标姿态估计的刚性感知检测方法,利用可见目标区域进行训练样本的采样,使用最小障碍距离构建了可见性图,产生更好的检测性能,并结合姿态回归网络在很多 6D 目标姿态评估数据集中获得了最佳结果。
- CVPRSIM: 基于盒子监督的语义感知实例掩膜生成
该论文提出了一种基于语义实例掩模的箱式监督实例分割方法,能够更好地处理对象之间的遮挡区域,并通过语义级假标签及自校正机制识别前景对象。
- ECCV通过强化学习调整注释边界框,提高端到端场景文本识别的最优性
本文提出了一种名为 Box Adjuster 的基于强化学习的方法,用于调整每个文本边界框的形状以使其更与文本识别模型兼容。此外,当处理跨域问题时,该方法显著减少源域和目标域之间的分布不匹配。实验证明,使用调整后的边界框作为训练的基础可以提 - CVPR少胜于全:场景文本检测的特征采样和分组
本文提出了一种简单而有效的基于变压器的场景文本检测模型,该模型通过选取几个代表性特征进行文本检测,借助变压器模型建模其特征之间的关系,实现将文本实例划分为合理的组,并轻易地获得其边界框,从而在多个数据集上取得了最新的成果。
- ECCV基于分割的鲁棒视觉跟踪
本文提出了一种基于分割的跟踪器,通过分割掩码来描述目标,相较于边框,在形状和对齐上更加精确,并且引入了一个独立的实例定位组件用于提高跟踪的鲁棒性,最终在挑战的数据集上取得了 69.7% 的成功率。
- 非对齐但安全 —— 对不精确 2D 目标检测的性能限制进行正式补偿
本文关注机器学习的 2D 目标检测及其不完善性对安全的影响,并证明了当预测边界框不能与地面实况完全对齐时,所需的最小边界框扩张因子,最终通过量化和最坏情况分析之间的定量 Evident 及 定性证据,提供了有趣的联系。
- CVPR采用关系框域的顺序投票进行主动物体检测
本研究提出了基于像素投票函数的方法,使用强化学习训练所需参数,连续多轮迭代更新活跃物体的边界框,以提高手和物体交互方面的性能。
- ICCV目标检测中的旋转不变性
本文探讨了原先在物体检测中使用的最大框方法会导致误差较大,提出了一种新的椭圆形框方法来增强模型对旋转的不变性。同时,引入旋转不确定性损失,使模型能够适应标签的不确定性,并通过实验验证了该方法在几个不同的数据集上能够显著提高模型的旋转不变性。