PyTorch 上的 VMAF 重新实现：一些实验结果

Oct, 2023

PyTorch 上的 VMAF 重新实现：一些实验结果

VMAF Re-implementation on PyTorch: Some Experimental Results

Kirill Aistov, Maxim Koroteev

TL;DR基于标准的 VMAF 实现，我们提出了一个使用 PyTorch 框架的 VMAF 实现。通过与标准库 VMAF 的比较，我们发现在 VMAF 单位上的差异小于 10^-2。我们研究了使用 VMAF 作为目标函数时的梯度计算，并证明使用该函数进行训练不会出现不良的梯度行为。

Abstract

Based on the standard vmaf implementation we propose an implementation of →

vmaf pytorch implementation comparisons gradients

发现论文，激发创造

PyMAF：金字塔网格对齐反馈循环的 3D 人体姿态和形状回归

使用回归方法重建人体网格模型，通过提出的 PyMAF 循环利用特征金字塔明确校正网格和图像对齐状态，辅助像素级监督对特征编码器进行信息保留，能在多个基准测试中得出优秀的实验结果。

Mar, 2021

PyMAF-X: 从单目图像实现全身模型回归的良好对齐

本论文提出了一种基于回归的方法 PyMAF-X，通过 Pyramidal Mesh Alignment Feedback 循环实现了全身参数模型的从单张图片中恢复，并提出自适应集成策略以产生自然的手腕姿势，保持了部分特定估计的对齐性能。在多个基准数据集上验证了我们方法的有效性，并取得了表现优异的结果。

Jul, 2022

基于 von Mises-Fisher 混合模型的深度学习：应用于人脸验证

本文提出了基于 von Mises-Fisher 混合模型的深度学习方法，能有效地深度学习方向特征，实现了紧凑学习同一类别的实例，同时增加不同类别的实例之间的距离，融合了多种流行的 loss 函数，并在人脸验证任务中获得了当前最优结果。

Jun, 2017

ConvMAE：掩码卷积与掩码自编码器相遇

本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入，提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法，可以在保证计算效率的同时提高了分类和检测的准确率。

May, 2022

VideoMAE V2: 基于双重蒙版的视频自编码器扩展

本文介绍了使用视频掩码自编码器（VideoMAE）进行可扩展和一般自监督预训练，用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。

Mar, 2023

自监督视觉 Transformer 的损失可视化

利用损失景观的方法调查了 Masked autoencoder 在自监督的 ViT 训练中对更好的泛化能力和梯度修正的作用。

May, 2024

自我监督轻量级视觉 Transformer 的深入探讨

本文主要通过使用基于掩码图像建模的 MAE pre-training 方法，即 MAE-lite，来为轻量级 ViTs 的 pre-training 提供配方，并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比，分析和表明了这种 pre-training 的影响，揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用，并开发了一个 distillation 策略来提高 pre-trained representations，从而实现更好的性能。

May, 2022

高维深度生成先验推断

本文提出了一种新算法 ML-VAMP，用于多层随机神经网络推理，可配置为计算最大先验或近似最小均方误差估计，具有高维随机极限下的精确预测及可测试最优性条件，提供了一种计算方法，可在大型系统极限下进行多层推理并实现最小均方误差预测。

Nov, 2019

Pythia v0.1：VQA Challenge 2018 获胜方案

本文提出的 Pythia v0.1 通过对模型架构、学习率调整、图像特征微调和数据增强进行优化，并使用不同数据集和特征训练多个模型集成实现了 VQA v2.0 数据集上 72.27% 的准确率，其中采用的 up-down 模型表现最好。

Jul, 2018

基于向量 - 向量 - 矩阵架构的硬件感知框架：用于 NLP 应用中的低延迟推断

提出一种名为 VVMA 的新型向量 - 向量 - 矩阵体系结构，通过利用专用硬件，降低了神经机器翻译和转换模型的推理时间，并使模型参数和 FLOP 数量减少，同时保持较高准确性。

Oct, 2020