- 使用网络摄像头在长距离上识别动态手势以进行机器人引导
本研究提出了一种从最多 20 米的远距离识别动态手势的模型 (SlowFast and Transformer architectures),该模型能有效处理和分类视频帧中捕捉到的复杂手势序列,并且在性能上明显优于现有模型。
- CVPR探索视觉语言组合性和识别的光谱
研究了视觉和语言模型领域的复杂关系,特别是在语言理解和细粒度图像与文本对齐方面,探索并评估了现有的 VLMs,在组合性和识别准确性之间的模式和权衡,提出了改进两者能力和基准的策略性努力的必要性。
- 自适应时间动作引导的图卷积网络用于微表情识别
提出了一种名为自适应时间运动引导图卷积网络(ATM-GCN)的微表情识别框架,该框架在整个剪辑中捕获帧之间的时间依赖关系,从而增强了剪辑级别的微表情识别能力。实验证明,ATM-GCN 不仅在 Composite 数据集上超过现有的最先进方法 - BiomedParse:一种针对一切地方一次性进行图像解析的生物医学基础模型
BiomedParse 是一个用于生物医学图像分析的全能工具,通过联合解决分割、检测和识别等主要生物医学图像模态,为高效准确的基于图像的生物医学发现铺平了道路。
- 乌尔都语自然场景文本检测、识别和视觉问答的数据集和基准
通过提供 1000 多幅自然场景图像,该研究提出了一个新的多任务乌尔都语场景文本数据集,用于文本检测、识别和视觉问答任务,并解决了之前数据集在面对任意形状文本时的限制。该数据集通过引入额外的标注点,方便了对能够处理多样文本布局、复杂形状和非 - 一种自监督方法用于大鼠图像的身体部位分割与关键点检测
通过计算机视觉方法和深度神经网络,本文提出了一种能够解决个体组件识别、关键点检测和行为分析的系统,并且不受对象遮挡的影响,从而摆脱了对实验室动物手动标注的需求。
- 有限监督的原子级光学化学结构识别
通过图形表示或图像识别分子的化学结构是一项具有挑战性的模式识别任务,在药物开发方面具有很大的好处。我们提出了一种新的化学结构识别工具,该工具提供了最先进的性能,并可以适应少量数据样本和监督下的新领域。与以前的方法不同,我们的方法提供了原子级 - 阿姆斯特丹住房质量的跨模态学习
我们的研究在阿姆斯特丹市通过对地面和空中影像的数据和模型进行测试,以识别住房质量。结果显示,相较于仅使用空中影像,Google StreetView(GSV)能够预测出最准确的建筑质量分数,提高了约 30%。然而,通过仔细筛选和使用正确的预 - 基于区域的再思考
我们研究了基于区域的表示方法在识别中的有效性,并展示了最近的类别不可知分割器,如 SAM 结合强无监督表示方法 (DINOv2) 的有效性,以及在语义分割、基于对象的图像检索和多图像分析等各种任务上的应用。提取出的掩模和特征使得即使使用线性 - ICMC-ASR: 2024 年 ICASSP 车载多通道自动语音识别挑战
促进驾驶场景下的语音处理和识别研究,建立在 ISCSLP 2022 举办的智能座舱语音识别挑战(ICSRC)成功的基础上,我们推出 ICASSP 2024 车载多通道自动语音识别(ICMC-ASR)挑战。该挑战收集了 100 多小时的多通道 - 开放词汇 SAM:交互式地分段和识别两万个类别
该论文介绍了将 CLIP 和 Segment Anything Model(SAM)集成到统一框架中的深入研究,提出了基于 SAM 的 Open-Vocabulary SAM 模型,实现了同时交互分割和识别的功能,并通过知识转移模块 SAM - DeLR: 基于分离定位和识别查询的主动学习检测
提出一种名为 DeLR 的高效查询策略,通过解耦定位和识别,减少对象检测中的注释成本,并在几个基准测试中证明其优越性。
- DSText V2:针对密集细小文字的综合视频文字识别数据集
该研究提出了一个名为 DSText V2 的视频文本阅读基准,着重解决了视频中密集、小字体的阅读难题,并且包含了新的场景和任务,如视频文本检测、跟踪以及端到端视频文本定位。该文章还对数据集进行了详细的统计分析,并提供了洞察和分析针对该数据集 - 基于人工智能的船只检测和识别的 AR 可视化系统
基于人工智能和增强现实技术的 AR 可视化系统用于船舶检测和识别,通过 R3Det 算法实现远程感知图像中船舶的检测和识别,并在虚拟场景中生成船舶的 3D 模型,通过语音模块和 UI 交互模块实现部署在 Hololens2 上,实现计算机视 - 利用不确定性估计来提高分类器性能
模型得分和不确定性对决策边界的选择有关,该研究提供了理论分析和经验证据来证明模型得分估计偏差依赖于不确定性和得分本身,通过动态规划和保序回归算法提出的方案在三个真实数据集上比传统的只使用模型得分方法,在高精确度边界下获得了 25%-40%的 - 关于学习带有注意力移动的空间序列
我们重新思考了空间序列的数学表示方法,提出了两种假设来解释抽象形成的方式,并将注意力移动视为人类认知的核心,将相关教训应用于更好的学习算法。
- 面向视觉识别与推理的统一神经网络架构
图像识别和推理是视觉理解的两个支柱,最近的研究表明,多任务变压器模型可以在视觉识别和推理中提供统一的神经网络架构,通过探索不同的识别任务、数据集和归纳偏好,我们发现对象检测对推理是最有益的任务。
- 高空距离全身检测、识别和识别
我们提出了一个端到端系统,用于在长达 500 米和大于 50 度的高角度的情况下进行全身生物识别的检测、识别和辨认。我们的方法在各种室内、室外和航空场景下进行了全面的评估,表现出强大的识别准确性和低虚假接受率。
- 利用大型语言模型研究人类对有意义叙述的记忆
语言模型作为一种科学工具,我们展示了它在研究人类对有意义材料的记忆上的应用,通过在线大规模记忆实验和结果分析,发现记忆和认知表现与叙述长度成线性关系,并且研究叙述理解在记忆中的作用。
- 一种使用腰部佩戴的 IMU 进行排球跳跃分类的多阶段时间卷积网络
使用惯性测量单元的不显眼系统和多层时间卷积网络模型可准确地识别排球跳跃类型,表现优于其他深度学习模型,并且具有较低的计算成本。