依据情境的摄像头与知识:计算机视觉中一种以自我为中心的认识论
机器视觉技术是具有具体形体视觉和情境知觉承诺的材料实例,通过从计算机视觉研究、现象学和女性主义认识论的范式进行借鉴,本文主张将哲学关注的焦点从批评伦理缺陷的视觉技术转向将其作为复杂且在方法上和认识论上重要的对象。
Mar, 2024
本研究旨在利用一种新的方法,即多态输入的注意力循环网络,来描述自我中心影像序列的故事情节,并发布了第一个自我中心影像序列描述数据集,该方法的表现优于传统的注意力编码器 - 解码器方法。
Apr, 2017
该论文研究了从第一人称视角获取图像和视频的发展趋势,采用图像识别和区域跟踪技术进行视觉场景中手的识别和动作的分类,表明使用区域兴趣描述视频的信息可以被依靠,来对与手有关的人体动作进行分类。
May, 2019
对于可以整合到日常生活中的可穿戴计算机、外置摄像头和数字叠加技术等未来的先知性研究,本文通过以人物为基础的故事来描绘未来,并提供了之前定义的研究任务与未来之间的映射,对每个任务进行了调研,包括开创性的作品、最新技术方法和可用数据集,然后反思了目前技术的局限,最后提出了为了实现始终开启、个性化和增强式的自我中心视觉的未来研究的建议。
Aug, 2023
本文调查了多个已有的数据集与方法,致力于采用 'egocentric vision' 技术实现手部的定位、动作理解和人机交互,展示并提供了关于手部注释的突出数据集列表。
Dec, 2019
本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响,并通过自我监督学习开发 Epic Sounding Object 数据集评估模型,证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能,并可以推广到不同的音视觉场景。
Mar, 2023
为了将对视频流的整体感知有效地传递给智能机器,我们通过学习将概念关联和来自不同任务的抽象知识协同利用来学习新技能,提出了一种统一的视频理解方法,它结合了人类行为的共享时间建模和最小开销,支持多个下游任务及在学习新技能时的合作,并通过四个 Ego4D 基准测试表明了我们方法的有效性和高效性。
Mar, 2024