使用大量异构神经网络进行标签去噪
我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”,训练使用增强数据集并配合交叉验证,最终排名第 5。
Jun, 2017
本文介绍了针对 YouTube-8M 数据集进行多标签视频分类的深度神经网络模型,包括帧编码器、分类层、标签处理层和损失函数,并讨论了现有模型在该数据集上的效果及其成功或失败的原因,所提出的模型的大部分性能都高于基线模型,并且最终的模型集合在 Kaggle 比赛中排名第 8。
Jun, 2017
我们在 Google Cloud 和 YouTube-8M 视频理解挑战的背景下,研究了控制 DNN 多样性的因素。通过使用集成方法、模型过拟合或丢弃等方法来促进 DNN 的多样性,并介绍了我们在 Kaggle 竞赛(以 Yeti 团队的名义参赛)中排名第 7 位的视频理解问题的解决方案。
Jul, 2017
该论文提出了一种基于无标签干扰数据集训练深度卷积神经网络的新型框架,并使用一个无向图模型来描述干净和嘈杂标签之间的关系,在监督学习过程中学习这个模型。该模型在图像标注问题上应用,并在 CIFAR-10 和 MS COCO 数据集上展示出有效的标注效果和在训练中实现了减少标签噪声的效果。
May, 2017
本文基于 YouTube-8M 大规模数据集,提出了三种视频分类模型,分别基于帧池化和 LSTM 网络,第三个模型使用 Experts 混合中间层以增加模型容量,并进行了一系列处理不平衡训练数据的实验。
Jun, 2017
本文介绍了我们参加 YouTube-8M 视频理解挑战的经历和成果,并提供了基于帧级数据的机器学习问题的深入分析和解决方案。我们通过统一平均的多剪辑集成方法,只使用提出的策略就实现了前十名的成绩,同时也介绍了一些有潜力但时间不足无法训练到收敛的方法。希望本文能起到对 YouTube-8M 多标签视频分类基准的一定回顾和指导作用,激发未来尝试和研究的灵感。
Jun, 2017
本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题,模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络,并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注,从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。
Nov, 2019
本研究旨在通过引入基于注意力机制和函数逼近的方法来改进局部视频描述符集成的现有方法,并提出了创建新体系结构的见解。在使用帧级视频和音频描述符的 'The 2nd YouTube-8M Video Understanding Challenge' 中展示了我们的解决方案。通过满足预算约束条件,我们获得了类似于现有技术的测试准确性,并探讨了改进现有技术的策略。模型实现可在此 https URL 中获得。
Oct, 2018
基于简化的视觉特征,我们提出了一个高效且轻量级的深度分类集成结构,以解决对高准确率分类具有低误报的暴力内容的需求。通过使用一组轻量级模型进行颜色特征的缩减,并应用于图像和视频,我们评估了该方法并与常用的深度学习模型进行了比较,结果显示了预测准确率的显著提高,同时推广了快速推理和较低的计算成本。虽然我们的方法针对爆炸检测,但也可应用于其他类似的内容管理和暴力检测用例。基于我们的实验,我们提出了 “小思考,多思考” 的分类策略,认为将单一的大型深度模型转化为多个小型、简单且轻量级模型的验证式步骤模型集成可能导致更高准确率的预测。
Sep, 2023