深度学习模型的双尺度复杂度度量

Jan, 2024

深度学习模型的双尺度复杂度度量

A Two-Scale Complexity Measure for Deep Learning Models

Massimiliano Datres, Gian Paolo Leonardi, Alessio Figalli, David Sutter

TL;DR我们引入了一种基于有效维度的统计模型的新容量度量 2sED。这个新数量在模型的温和假设下能证明地限制了泛化误差。此外，对标准数据集和流行的模型架构的模拟结果表明，2sED 与训练误差具有良好的相关性。对于马尔可夫模型，我们展示了如何通过分层迭代方法从下方高效地逼近 2sED，这使我们能够处理具有大量参数的深度学习模型。模拟结果表明，这种逼近适用于不同的突出模型和数据集。

Abstract

We introduce a novel capacity measure 2sED for statistical models based on the effective dimension. The new quantity provably bounds the generalization error under mild assumptions on the model. Furthermore, simu

capacity measure generalization error effective dimension markovian models deep learning models

发现论文，激发创造

学习能力：模型有效维度的一种度量

采用热力学和推理之间的形式对应来定义学习容量，该容量是对模型有效维度的度量，与 PAC-Bayesian 框架获得的容量概念具有数值上的一致性，是许多基于典型数据集训练的深度网络的参数数量的一小部分，而且取决于训练时使用的样本数量，可以用于理解有效维度，即使是对于随机森林和 kNN 分类器等非参数模型。

May, 2023

深度模型参数计数的重新思考：有效维度再审视

通过有效维度的视角，我们研究了神经网络在参数计数作为复杂度代理时的一些奇妙的泛化特性，包括双下降现象、模型选择、宽度 - 深度权衡和损失曲面的功能多样性，发现通过有效维度可以更好地了解深度模型中参数和函数之间的相互作用，并且比其他基于范数或平坦度的泛化度量方法更优。

Mar, 2020

TEDL: 一种用于分类不确定性量化的双阶段证据深度学习方法

本文提出 TEDL Two-stage Learning 方法，基于 Dempster-Shafer 理论，用来量化深度学习模型在分类任务中的不确定性，通过实验表明，TEDL 与交叉熵相结合、替换 ReLU 为 ELU 可以提高稳定性和 AUC。

Sep, 2022

深度双谷：更大的模型和更多的数据会造成伤害

我们证明了现代深度学习任务表现出 “双峰下降” 现象，即随着模型大小的增加，性能先变差，然后变好。此外，我们发现双重下降不仅是模型大小的函数，而且是训练时期数的函数。我们通过定义一个我们称之为有效模型复杂度的新复杂度度量来统一以上现象，并猜测存在相对于该度量的广义双下降。此外，我们的模型复杂度概念使我们能够确定某些区域，在这些区域中，增加（甚至是四倍）的训练样本数量实际上会损害测试性能。

Dec, 2019

交互式估计的统一模型和维度

本文提出了交互式学习的抽象框架 —— 交互估计，其中目标是通过学习者查询的点与其类似性来估计目标。我们介绍了一种称为不相似维度的组合度量，从很大程度上捕获了我们模型中的可学习性。我们提出了一种简单、通用和广泛适用的算法，对其进行了后悔和 PAC 泛化边界的求解，这些边界在新维度中是多项式的。我们展示了我们的框架涵盖并统一了两个经典的学习模型：统计查询学习和结构化强化学习。我们还说明了不相似维度与两种框架的众所周知的参数的关系，在某些情况下得到了显着改进的分析。

Jun, 2023

低资源情境下有效学习的一种新方法

提出了一种称为 s2sL 的新框架，采用同时考虑两个样本的方式来有效地学习类别判别特性，展示了其在语音 / 音乐识别、情感分类、低资源场景和数据不平衡方面的有效性。

Dec, 2017

最坏情况训练的两个维度及其对域外泛化的综合影响

本研究介绍了一种名为 W2D 的机器学习训练方法，该方法通过强调样本和特征维度的最坏情况，提高了模型的泛化能力。实验证明该方法在标准基准测试中具有实际的优势。

Apr, 2022

通过估计数据分布的比例进行离散扩散语言建模

使用评分熵离散化损失函数来优化基于扩散模型的生成模型，在与 GPT-2 进行比较时取得了竞争性的似然度，并且在算法上也带来了明显的优势。

Oct, 2023

准确深度学习子网格尺度模型用于大涡模拟

我们提出了两个用于大涡模拟（LES）目的开发的次网格尺度（SGS）湍流模型家族。这些模型的发展需要以物理为基础的强大且高效的深度学习（DL）算法，与最先进的分析建模技术不同，该算法能够产生输入和输出之间的高阶复杂非线性关系。

Jul, 2023

半监督目标检测的等比例蒸馏

本文讨论了半监督物体检测中的若干问题，提出了一种新的知识蒸馏框架 —— 尺度等价蒸馏（Scale-Equivalent Distillation，SED），来解决大尺度差异和类别不平衡等问题，实验证明该方法可显著提升检测结果。

Mar, 2022