CVPR2022 AVA 辅助视觉与自主性挑战赛第三名解决方案
我们提出了一种解决自主系统中实例分割挑战的方法,特别针对可访问性和包容性。我们的方法利用非层次化的 Vision Transformer 变种 EVA-02,结合级联 Mask R-CNN 掩码头部。通过在 AVA 实例分割挑战数据集上进行微调,我们在测试集上实现了 52.68%的有希望的平均精度(mAP)。我们的结果证明了 ViT-based 架构在增强视觉能力和满足残障人士的独特需求方面的有效性。
Jul, 2023
该研究提出了一个基于 Faster R-CNN 和 I3D 模型的简单 baseline,用于在 AVA 数据集上进行动作定位,最终模型在验证集上获得了 22.8%/21.9%的 AP,表现优于 CVPR 2018 挑战中的所有提交项。
Jul, 2018
我们的研究探索多模式基础模型在可视化中的应用,利用多模式大语言模型 (LMM) 的视觉感知能力来开发自主可视化代理人 (AVAs),它们可以通过自然语言解释和实现用户定义的可视化目标。我们提出了 AVAs 设计的第一个框架,并展示了几种使用场景,以展示该提议范例的普适性。这些 AVAs 作为虚拟可视化助手可以协助领域专家完成可视化输出的参数选择,即使他们缺乏调整可视化输出的知识或专业技能。我们的初步探索和概念验证代理人表明,这种方法在需要解释以往可视化输出以选择适当的可视化参数时可广泛应用。我们与人工智能研究、医学可视化和放射学等领域的专家进行了非结构化访谈,并结合了他们的反馈,突出了 AVAs 的实用性和潜力。我们的研究表明,AVAs 代表了一种设计智能化可视化系统的通用范式,可实现高级可视化目标,为未来发展专家级可视化代理人铺平了道路。
Dec, 2023
本研究致力于提高在野外视频中识别 “谁何时说话” 的音视频扬声器分离的准确性,它创建了 AVA 音频 - 视觉扬声器分离(AVA-AVD)数据集和一种称为 AVR-Net 的新方法,通过加入 AVA-AVD 数据集的训练可以在相对较小的数据集上显着提高结果。
Nov, 2021
本文介绍了我们在 2020 年的 ECCV VIPriors 物体检测挑战中使用最先进的数据增广策略、模型设计和后处理集成方法,克服数据缺乏困难、仅使用 10K 训练图像,在没有任何预训练或迁移学习权重的情况下,获得了第二名,并在 COCO2017 验证集上实现了 36.6%的 AP。
Jul, 2020
本研究介绍了 Aoi-overfifitting-Team 团队解决 Data-Efficient Defect Detection 的技术细节,基于 Hybrid Task Cascade 实例分割算法,借助 CBNetv2 强化基线结果,并提出了两种模型集成方法和多尺度训练及测试时间扩充技术,最终在测试集上实现超过 48.49% 的平均 [email protected]:0.95 和 66.71% 的平均 [email protected]:0.95。
Jun, 2023
报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法,该方法通过对模型的训练计划进行修改改进了声音活动的检测性能,证明了采用现成的语音活动检测模型可以有效地消除误报,而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER,远远优于所有基线,在比赛中取得了第一名。
Oct, 2022
本文提出了一种解决跨模态交通检索问题的方法,将问题分为行人检索和车辆检索两个子任务,并分别采用 IRRA 和 BLIP 作为基础模型,同时引入属性分类和基于属性的目标检测技术来增强图像和文本之间的对齐,取得了 70.9 的排名。
Mar, 2024
该论文总结了在 ICCV 2023 举行的 MUAD 不确定性量化挑战中采用的获胜解决方案,重点关注城市环境中的语义分割,特别关注自然对抗情景。报告呈现了 19 个提交条目的结果,许多技术借鉴了近几年在计算机视觉和机器学习领域的重要会议和期刊中介绍的前沿不确定性量化方法。在文中介绍了挑战的目的和目标,主要集中在增强城市场景下语义分割在不同的自然对抗条件下的鲁棒性。报告还深入探讨了表现最好的解决方案,并旨在全面概述所有参与者采用的不同解决方案,以便为读者提供更深入的洞察力,了解在自动驾驶和语义分割中与城市环境中固有不确定性处理相关的各种策略。
Sep, 2023
本文介绍了一种基于解耦策略的视频全景分割方法,该方法在开发和测试阶段分别达到了 51.4 和 53.7 的 VPQ 得分,并在第二届 PVUW 挑战赛的 VPS 赛道上排名第一。
Jun, 2023