视觉搜索的注意力分配辅助
我们提出了一种针对 Multimodal Learning Analytics 领域的方法,开发了一种名为 VAAD 的工具,用于可视化和分析在线课程学习过程中收集到的眼动数据。该工具可通过数据可视化进行描述性分析,识别不同学习者群体之间的差异和学习模式,并集成了一个预测模块,能够预测学习过程中的学习者活动,从描述性和预测性的角度为在线学习行为提供有价值的洞察。
May, 2024
提出了一种计算模型估计人们对所处环境的注意意识,测试了该模型在驾驶场景中的效果,结果表明该模型能够合理地估计被关注的意识区域,并在视觉显著性、凝视校准和去噪等任务中表现出较好的效果。
Oct, 2021
本文提出了一种基于深度注意力感知特征的视觉定位框架,可在自动驾驶中实现厘米级别的定位精度。通过使用新型端到端的深度神经网络,利用深度注意机制寻找显著、稳定性强的特征,以建立强鲁棒性的匹配,并成功估计高精度的相机姿态。经过大量的实验验证,证明了我们的方法在各种挑战性场景下,都能够达到非常具有竞争力的定位精度,这为未来自动驾驶的低成本定位解决方案提供了新的可能性。
Mar, 2020
本文呈现了用于自动驾驶关键方面的新数据集,介绍了交通参与者行为的可变性,并展示了天气条件、地理位置、交通和人口统计学等因素如何影响交通行为及场景的视觉复杂度。地面真相数据传达了有关参与者位置(边界框)、物理条件(例如照明和速度)和各参与方的行为的信息。
Sep, 2016
交通事故检测与预测是一项棘手的交通安全问题,本文提出了一项对深度学习时代中视觉交通事故检测(Vision-TAD)和预测(Vision-TAA)的全面调查,探讨了每个研究样本的优劣,并提供了 31 个公开可用的基准和相关评估指标的关键评论,旨在为 Vision-TAD 和 Vision-TAA 任务带来新的见解和可能的趋势。
Aug, 2023
本研究采用自然语言反馈的图像检索方法,结合图像与文本特征实现细粒度视觉搜索并提出了 MAAF 模型,在 Fashion IQ 和 CSS 数据集中比现有方法表现更优,同时在 Fashion200k 数据集中也取得竞争性表现。此外,我们还提出了两个适用于丰富语言输入的新挑战基准,并通过实验证明该方法在不修改时优于强基线。最后我们在 Fashion IQ 上进行了深入细致的分析和可视化,揭示了单词避免 “关注” 他们所指图像区域的惊人现象
Jun, 2020
本文提出了一种基于 FFMs 的数据驱动计算模型,用于解决人类搜索终止问题以及预测在图像中搜索不存在目标时人们的扫描路径,通过将 FFMs 集成为状态表示在逆强化学习中将其作为方法,实验结果在 COCO-Search18 数据集上提高了目标缺失搜索行为的预测水平。
Jul, 2022
本文结合注意力机制提出了两种最先进的视觉问答方法,并通过可视化和分析它们的估计注意力图来研究它们的鲁棒性和缺点。研究表明两种方法对特征敏感,同时对于计数和多对象相关的问题表现不佳。该研究结果和分析方法可帮助研究人员识别重要的挑战,以改进自己的 VQA 系统。
Oct, 2018
该研究论文提出了一种基于视觉注意力的训练深度分类器的互补学习算法,利用正反馈操作生成注意力图来作为正则化项,该机制能够使分类器学习到关注具有外观变化鲁棒性的目标对象的区域,实验证明该注意力跟踪方法在大规模基准数据集上的性能表现优于现有的基于检测的跟踪算法。
Oct, 2018