- 时间序列预测的标度律
时间序列预测的缩放定律理论解释了深度学习方法在时间序列预测中的表现不尽相同,必须考虑数据集大小、模型复杂度以及时间序列粒度,特别注重未被研究的回顾时间范围的影响,实证评估了多个模型,验证了在时间序列预测领域数据集大小和模型复杂度的缩放定律有 - 揭开缩放法则之迷:第一部分
本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效,但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素,并提供透明的逐步指导,通过在包含 1M~60M 参数的模型上进行训练估算出缩 - Ef-QuantFace: 精简的小数据和低比特精度人脸识别
该研究论文介绍了一种以高效为驱动的模型量化方法,使用比传统方法小 440 倍的数据集进行微调,通过引入评估基于指标的损失,该方法在 IJB-C 数据集上实现了 96.15% 的准确率,建立了面部识别领域新的压缩模型训练的最新技术。
- 弱监督深度学习在胸部 CT 分类中的性能限制是什么?
通过分析弱监督学习在医学图像领域的限制以及约束条件对疾病分类性能的影响,本研究揭示了模型对噪声数据的容忍度、训练数据量的影响以及二元和多标签分类之间的性能差异。结果表明,模型可以在添加 10% 标签错误之前保持疾病分类的性能,随着训练数据量 - 凸 SGD: 泛化无需提前停止
我们研究了在紧致集合上的光滑凸函数中使用随机梯度下降的泛化误差,并展示了当迭代次数 T 和数据集大小 n 以任意速率趋近于零时,我们第一次得到了一个消失的泛化误差界,该界与步长 αt=1/√t 成比例,泛化能力不需要强凸性。
- 多语言场景文字识别中的跨语言学习
我们研究多语种场景文本识别的跨语言学习,并发现重要的条件是高资源语言的数据集大小,无论高资源语言的种类如何。
- 射流分类中的尺度律
我们展示了在对撞机物理中,基准顶部与量子色动力学(QCD)喷注分类问题中出现的规模定律。六个不同的受物理驱动的分类器表现出训练集大小的二进制交叉熵测试损失的幂律缩放,具有不同的幂律指数。该结果强调了将分类器作为数据集大小的函数而不是固定训练 - 多语种模型用于 200 多种高低资源语言的研究
添加多语言数据可以提高低资源语言模型的性能,但对于高资源语言而言,添加多语言数据可能会降低性能。
- 基于数据驱动的深度学习方法进行比特币价格预测
利用浅层双向 LSTM 模型和特征工程方法对比特币价格进行预测,并显示在使用所提出的特征工程方法时,浅层深度神经网络优于其他流行的价格预测模型。
- 线性变分自编码器中数据集大小对失真率曲线和后验坍缩阈值的依赖关系
该论文提出了一个闭式表达式,用于评估 Variational Autoencoder(VAE)中的 beta 与数据集大小、后验坍缩以及失真 - 速率曲线之间的关系。结果表明,较大的 beta 值会导致整体化误差的长期台阶,而且在某个临界点 - 缩放定律无法按比例缩放
随着数据集规模的增大,对大型人工智能模型进行训练的数据中包含的不同社群数量可能增加,而每个社群可能持有不同的价值观,这对于刻度律模型的性能评估可能存在风险。
- 自主驾驶模拟中的主动数据采集
本文提出了一种主动数据收集策略来改善自主驾驶算法中需要的数据集质量问题,实验结果表明该策略可以显著降低标注成本和数据集大小,提高数据集质量,从而提高自主驾驶系统的性能。
- 自监督视频表征学习基准测试
本文提出了用于视频领域的自监督学习基准,并对数据集大小、数据分布、数据噪声、自监督预训练架构相关的五个不同方面进行了观察分析,同时提出一种新方法,不需要过多的训练数据,即可超越现有自监督预训练的先进水平。
- Synfeal: 基于数据驱动的端到端相机定位模拟器
本研究中,我们提出了一种名为 Synfeal 的数据驱动模拟器,通过在真实世界的逼真三维重建中移动虚拟摄像机并收集相应的地面真实摄像机姿势来合成真实场景的大型定位数据集。通过使用 Synfeal 合成数据集并对其进行有针对性的训练,本文证明 - 文本预训练的语音语言模型
该研究提出了 TWIST 方法,利用预训练的文本语言模型进行暖启动,从而训练语音语言模型,实验结果表明 TWIST 方法在多个方面胜过冷启动方法。基于观察结果,研究团队提出了迄今为止最大的 SpeechLM,并引入了两个口语版的 Story - 扩散式人脸生成模型的偏差分析
本论文探究了扩散模型在人脸生成中存在的偏见来源,如性别、种族和年龄等属性,并调查了数据集大小对不同属性类别下扩散模型和对抗生成网络(GAN)模型的属性组成和感知质量的影响,结果发现扩散模型往往会恶化训练数据的分布偏见,同时受到数据集大小的影 - CVPR一种元学习方法用于预测性能和数据需求
本文提出了一种用分段幂律(Piecewise Power Law,PPL)来估算模型达到目标性能所需样本数量的方法,并通过随机森林回归器进行元学习来估算 PPL 的参数,从而显著提高了对模型性能的估计效果,同时提出了一种置信区间使得预测更加 - 学得越多未必越好:视觉与语言任务中的知识可迁移性
研究在多模态任务中知识转移性,以探讨是否将不同任务的数据集合并来训练视觉 - 语言模型一定能提高它们的整体表现。通过对 12 项视觉 - 语言任务进行数百次交叉实验分析,发现不是所有的知识都能有益于相关任务,在同一组任务中却容易相互改进,而 - 大型语言模型培训动态分析:防止过度拟合的记忆训练
研究了大型语言模型的训练和记忆过程,在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响,证明更大的语言模型更快地记忆训练数据,更容易在训练过程中避免过度拟合。同时,分析了不同词性的记忆动态,发现名词和数字是模型记忆单个训练例子 - 数据集对自动语音识别声学模型的影响
本文研究了不同数据集大小对各种 GMM-HMM 声学模型性能及其计算成本的影响。