利用物体检测和口头反馈帮助盲人
深度学习目标检测在帮助视力受损者避开障碍物方面是一种有效的方法,本文通过实现并评估七种不同的 YOLO 目标检测模型(YOLO-NAS,YOLOv8,YOLOv7,YOLOv6 和 YOLOv5)来分析这些模型在道路和人行道上常见物体的图像上的表现,并发现 YOLOv8 是最佳模型,其在包含 VOC、COCO 和 TT100K 数据集的 Obstacle 数据集上表现出 80% 的精确度和 68.2% 的召回率,尽管 YOLO-NAS 是最新的模型,在其他应用中表现更好,但对于障碍物检测任务来说并不理想。
Dec, 2023
本文旨在开发一种设备,将视觉信息转换为听觉反馈,以协助视障者更好地了解他们的环境,该设备的选择基于准确性和成本方面的考虑,包括时间和功耗等因数,经测试,其在场景理解,包括静态或动态的对象,以及屏幕内容如电视、电脑和手机等方面具有显著的效果。
Jul, 2023
YOLO-World is an innovative approach that enhances the You Only Look Once (YOLO) series of detectors with open-vocabulary detection capabilities through vision-language modeling, achieving high efficiency and accuracy in detecting a wide range of objects in a zero-shot manner.
Jan, 2024
YOLO 是一种新的目标检测方法,使用单个神经网络从完整图像中直接预测边界框和类别概率,具有实时处理速度、误检低和物体的通用表示等优势。
Jun, 2015
该研究提出了一种新的框架,将两种不同的卷积神经网络结构相结合,以在模拟环境中同时完成作物检测和收获(机器人操控)任务。利用机器视觉实现作物自动识别,提高收获效率,但仍面临挑战。通过随机旋转、裁剪、亮度和对比度调整来生成增强图像以进行数据集生成。使用一次性算法框架进行作物定位,以及使用视觉几何组模型来确定机器人操控的抓取位置。
Jan, 2024
该研究探讨了一种基于深度学习的移动应用的开发和实施,旨在通过移动设备上的实时图像处理准确识别和区分不同类型的药丸以协助盲人和视障人士,该应用利用文本转语音(TTS)提供即时的听觉反馈,提高了视障用户的可用性和独立性。研究评估了应用的检测准确性和用户体验,凸显其在改善视障人士社区的药物管理和安全方面的潜力。
May, 2024
本文提出了一种名为 Fast YOLO 的新框架,通过深度智能进化框架优化了 YOLOv2 网络架构并将运动自适应推理方法引入,从而在保持性能的同时,在嵌入式设备上实现实时物体检测。实验结果表明,Fast YOLO 框架可以在平均 3.3 倍的速度加速下,将嵌入式系统上的检测性能提高到 18FPS。
Sep, 2017
本文提出了一种基于学习相似度评估的后处理方法,它可以克服先前后处理方法的一些局限性,提高特定视频检测器的结果,特别是在快速运动物体方面,并具有低资源要求。该方法还可以应用于像 YOLO 这样的高效静态图像检测器,提供与计算量更大的检测器相当的结果。
Sep, 2020
通过改进检测精度、减少模型面临的问题以及应用数据增强、噪声降低、参数优化和模型融合等技术,我们提出了一种针对混杂背景、遮挡环境中实时检测汽车和坦克的深度学习模型。SSD-Mobilenet v2 模型的准确率和帧数优于 YOLO V3 和 YOLO V4,我们通过引入数据增强、噪声降低、参数优化和模型融合等技术进一步提高检测和识别的效果,并对检测方式进行了统计,属性实验比较,并实现了一个具有物体计数、警报、状态、分辨率以及帧数等功能的图形用户界面系统。该方法的实施得到了 YOLO V3、V4 和 SSD 分析的确认,以完成提出的方法。
Jan, 2024