使用大量异构神经网络进行标签去噪

Sep, 2018

使用大量异构神经网络进行标签去噪

Label Denoising with Large Ensembles of Heterogeneous Neural Networks

Pavel Ostyakov, Elizaveta Logacheva, Roman Suvorov, Vladimir Aliev, Gleb Sterkin...

TL;DR该研究讨论了使用知识蒸馏和混合技术的集成模型的方法，以解决大规模视频分类问题。

Abstract

Despite recent advances in computer vision based on various convolutional architectures, video understanding remains an important challenge. In this work, we present and discuss a top solution for the large-scale

computer vision video understanding video classification ensemble model knowledge distillation

发现论文，激发创造

高效视频标注的深度学习方法

我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”，训练使用增强数据集并配合交叉验证，最终排名第 5。

Jun, 2017

针对 YouTube-8M 数据集的多标签视频分类的视频和标签先验编码

本文介绍了针对 YouTube-8M 数据集进行多标签视频分类的深度神经网络模型，包括帧编码器、分类层、标签处理层和损失函数，并讨论了现有模型在该数据集上的效果及其成功或失败的原因，所提出的模型的大部分性能都高于基线模型，并且最终的模型集合在 Kaggle 比赛中排名第 8。

Jun, 2017

大规模视频标注中的深度神经网络多样性培育

我们在 Google Cloud 和 YouTube-8M 视频理解挑战的背景下，研究了控制 DNN 多样性的因素。通过使用集成方法、模型过拟合或丢弃等方法来促进 DNN 的多样性，并介绍了我们在 Kaggle 竞赛（以 Yeti 团队的名义参赛）中排名第 7 位的视频理解问题的解决方案。

Jul, 2017

训练深度判别神经网络对抗标签噪声的鲁棒性

该论文提出了一种基于无标签干扰数据集训练深度卷积神经网络的新型框架，并使用一个无向图模型来描述干净和嘈杂标签之间的关系，在监督学习过程中学习这个模型。该模型在图像标注问题上应用，并在 CIFAR-10 和 MS COCO 数据集上展示出有效的标注效果和在训练中实现了减少标签噪声的效果。

May, 2017

利用深度神经网络进行大规模 YouTube-8M 视频理解

本文基于 YouTube-8M 大规模数据集，提出了三种视频分类模型，分别基于帧池化和 LSTM 网络，第三个模型使用 Experts 混合中间层以增加模型容量，并进行了一系列处理不平衡训练数据的实验。

Jun, 2017

模型合成中的多样性诱导信息瓶颈

本文提出了基于多样性损失函数的神经网络集成方法，以适应多模态数据的建模，并证明了其在数据分布变化和识别未知数据方面的显著性能提升。

Mar, 2020

YouTube-8M Kaggle 竞赛：挑战和方法

本文介绍了我们参加 YouTube-8M 视频理解挑战的经历和成果，并提供了基于帧级数据的机器学习问题的深入分析和解决方案。我们通过统一平均的多剪辑集成方法，只使用提出的策略就实现了前十名的成绩，同时也介绍了一些有潜力但时间不足无法训练到收敛的方法。希望本文能起到对 YouTube-8M 多标签视频分类基准的一定回顾和指导作用，激发未来尝试和研究的灵感。

Jun, 2017

视频级标签时间定位的多注意力网络

本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题，模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络，并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注，从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。

Nov, 2019

可学习的池化方法用于视频分类

本研究旨在通过引入基于注意力机制和函数逼近的方法来改进局部视频描述符集成的现有方法，并提出了创建新体系结构的见解。在使用帧级视频和音频描述符的 'The 2nd YouTube-8M Video Understanding Challenge' 中展示了我们的解决方案。通过满足预算约束条件，我们获得了类似于现有技术的测试准确性，并探讨了改进现有技术的策略。模型实现可在此 https URL 中获得。

Oct, 2018

更快、更轻、更准确：用于内容审核的深度学习集成

基于简化的视觉特征，我们提出了一个高效且轻量级的深度分类集成结构，以解决对高准确率分类具有低误报的暴力内容的需求。通过使用一组轻量级模型进行颜色特征的缩减，并应用于图像和视频，我们评估了该方法并与常用的深度学习模型进行了比较，结果显示了预测准确率的显著提高，同时推广了快速推理和较低的计算成本。虽然我们的方法针对爆炸检测，但也可应用于其他类似的内容管理和暴力检测用例。基于我们的实验，我们提出了 “小思考，多思考” 的分类策略，认为将单一的大型深度模型转化为多个小型、简单且轻量级模型的验证式步骤模型集成可能导致更高准确率的预测。

Sep, 2023