基于量化指导的压缩 TinyML 模型训练

MMMar, 2021

基于量化指导的压缩 TinyML 模型训练

Quantization-Guided Training for Compact TinyML Models

Sedigh Ghamari, Koray Ozcan, Thu Dinh, Andrey Melnikov, Juan Carvajal...

TL;DR本文提出了一种 Quantization Guided Training（QGT）方法，采用定制的正则化策略来鼓励权重值分布最大化精确度，减少量化误差，进而达到高效的低位精度压缩，并可用于检测压缩瓶颈，通过基于视觉数据集的现代模型和一个 81KB 的精度为 2 比特的小型模型进行有效性验证。

Abstract

We propose a quantization guided training (QGT) method to guide DNN training towards optimized low-bit-precision targets and reach extreme compression levels below 8-bit precision. Unlike standard quantization-aw

quantization guided training low-bit-precision targets extreme compression levels compression bottlenecks person detection

发现论文，激发创造

基于卷积神经网络的人体检测和关键词识别的无触点电梯研究

本研究提出了一种概念验证，用于最小化人为干预、提高安全性、智能性和效率的非接触式电梯运行系统。使用微控制器边缘设备执行微小机器学习（tinyML）推断，通过人员检测和关键词识别算法，系统提供成本效益高且稳健的单元，无需基础设施的重大改变。该设计在多租户框架中整合了预处理步骤和量化的卷积神经网络，以优化准确性和响应时间。结果表明，人员检测准确率为 83.34％，关键词识别效果为 80.5％，整体延迟时间低于 5 秒，表明在实际场景中具有有效性。与当前高成本和不一致的非接触技术不同，该系统利用 tinyML 提供了一种成本效益高、可靠且可扩展的解决方案，提高用户安全性和运行效率，无需重大基础设施改变。该研究显示了有前景的结果，但仍需要进一步探索可扩展性和与现有系统的集成。所展示的能效、简易性和安全性优势表明，tinyML 的采用可能会改变电梯系统，成为未来技术进步的模型。这项技术可以极大地影响多层建筑中的公共健康和便利性，通过减少身体接触和提高运行效率，在流行病或卫生关注的背景下尤其相关。

May, 2024

唤醒视觉：用于 TinyML 人体检测的大规模、多样化的数据集和基准套件

通过介绍 Wake Vision 数据集，我们针对 TinyML 视觉感知的人员检测任务，提供了一种大规模、多样化的数据集，并在测试数据的特定段上提供了五个详细的基准集，以评估模型在挑战性现实场景中的性能，从而使得使用 Wake Vision 进行训练相对于已建立的基准可以提高 2.41％的准确性。

May, 2024

利用 YOLO-World 和 GPT-4V LMMs 在无人机图像中实现零样本人员检测和动作识别

本文探讨了零样本大型多模态模型（Large Multimodal Models，LMMs）在无人机感知领域的潜力以及其在人体检测和动作识别任务中的应用。研究结果表明，YOLO-World 在检测性能上表现良好，而 GPT-4V 在准确分类动作类别上有困难，但在过滤不需要的区域提案和提供场景的总体描述方面取得了有希望的结果。该研究为利用 LMMs 进行无人机感知奠定了基础，并为进一步探索该领域提供了初始步骤。

Apr, 2024

基於豐富的中文描述的原型引導型基於文本的人物檢索

通过使用文本信息从未裁剪的场景图像中同时定位和识别目标人物的文本搜索，我们提出了一个大规模基准数据集 PRW-TPS-CN，该数据集包含 47,102 个句子，与现有数据集相比提供了更多的信息，同时提供中文和英文描述，旨在减轻人物检测和基于文本的人物检索之间的不一致，并通过聚合多个文本作为文本原型来生成图像注意力图，以消除检测不一致导致的文本检索减少，实验证明了我们方法的最新性能和 PRW-TPS-CN 数据集的有效性。

Dec, 2023

利用鱼眼俯视摄像头进行大规模人员检测和定位

该研究介绍了本文集中于使用俯视鱼眼摄像头开发人体定位解决方案，为此提出了一个基于鱼眼图像人体检测网络的 LOAF 数据集，结果表明其比之前的方法更优秀，整个鱼眼定位方法能够在 0.1 秒内以 0.5 米的精度定位视野内的所有人。

Jul, 2023

神经元覆盖率对于提高人体检测的鲁棒性是否必要？

本篇论文探讨了使用基于覆盖率的测试（CGT）方法对拥挤场景下人体检测中的深度神经网络（DNN）进行改进，并发现了数千种不正确的 DNN 行为，但未能证明探究的覆盖率指标可以用于提高 DNN 的鲁棒性。

Apr, 2022

使用 Transformer 的端到端一步式人物搜索（PSTR）

提出了一种新颖的基于 transformer 的人物搜索框架 PSTR，在一个结构中同时执行人物检测和重识别，实验结果表明其在两个流行基准测试上取得了最新的 state-of-the-art，其中最有挑战的 PRW 基准测试上平均精度（mAP）达到了 56.5％。

Apr, 2022

利用社交距离和口罩检测的 COVID-19 监控系统在监控视频数据集上

本文提出了一种基于目标检测、聚类和卷积神经网络的轻量级、稳健且全天候自动化视频监控系统，用于检测人体、社交距离违规、人脸及口罩分类，并提供了不同人脸检测和口罩分类模型的比较研究和基于视频标记的数据集标记方法，该系统在标记视频数据集上的准确率为 91.2％，F1 得分为 90.79％，预测时间平均为 7.12 秒。

Oct, 2021

从未剪辑的视频中识别不确定动作

本文提出了一种基于视频级别标签进行训练的视频动作识别模型，该模型利用大型图像数据集中训练的逐帧人物检测器，在多实例学习框架内实现。此外，我们使用新的概率多实例学习方法来估计每个预测的不确定性，并在 AVA 数据集上取得了第一个弱监督结果，在 UCF101-24 上获得了弱监督方法的最新成果。

Jul, 2020

JRDB：建筑环境下人类自我中心机器人视觉感知数据集及基准

介绍了 JRDB 数据集，该数据集是从社交机器人 JackRabbot 采集的一系列包括 RGB 视频、点云、音频信号等多模态数据，并标记了超过 230 万个包围框及 3500 个时间连续轨迹，其可用于研究以机器人视角为主的视觉算法、人物探测和自主导航等领域。

Oct, 2019