- 线性回归中的缩放定律:计算、参数和数据
大规模深度学习模型的实证研究表明,随着模型大小和数据规模的增加,训练模型的测试误差呈多项式改进;然而,神经缩放定律的一般形式预测增加模型大小会单调改善性能,这与传统的认知不同,即测试误差包含逼近、偏差和方差误差,并且方差错误随模型大小增加而 - 视觉语言预训练模型参数高效微调的实证研究
最近的研究应用了参数高效微调技术(PEFTs)来有效缩小预训练和下游任务之间的性能差距。该研究发现,对于与预训练一致的下游微调任务,数据规模不再影响性能,而可微参数规模的影响并不单调,这种观察可指导 PEFTs 的训练策略选择。
- 语言模型的核心数据规模:一种全面理解的视角
通过研究数据规模,我们发现了语言模型从快速记忆到慢速泛化的临界点,提出了数据效率假设并确定了语言模型训练中的数据不足、充足和过剩阶段。我们开发了一种配置方法来稳定地在简化语言模型中达到这种理解。实验结果显示,只有当语言模型达到一定的关键尺寸 - 一种预测规模较大数据集上分类器准确性的概率方法,基于小规模试验数据
通过使用高斯过程模型,我们提出了一种方法,可以在数据集大小增加时获取关于准确性或类似性能指标的概率推断,通过在六个数据集上的评估,我们发现我们的方法在错误、可能性和覆盖范围方面表现出色。
- 联合功率控制与数据大小选择用于辅助联邦学习的空中计算
联合优化基站和移动设备的信号放大因子以及每个移动设备参与本地训练的数据量,提出了一种减少均方误差的方法,有助于改善联合学习的训练性能。
- 多语言翻译干扰的原因和解决方法
本文介绍了多语言机器翻译中干扰现象的主要因素,以及如何通过控制模型大小、数据大小和采样温度来减轻干扰并提升性能。
- StyleGAN-Human: 人类生成的数据中心之旅
本研究从数据工程的角度出发,收集并注释了一个大规模人类图像数据集,并通过实验研究了数据量、数据分布和数据对齐等因素对 StyleGAN 生成高保真无条件人类图像的影响。结果显示,需要超过 40K 的大规模数据来训练高保真的 StyleGAN - CVPR迁移学习在医学图像中的工作原理:特征复用及其它因素
通过对几个医学图像基准数据集的一系列实验,我们探讨了迁移学习、数据大小、模型能力和归纳偏差以及源域与目标域之间的距离之间的关系,并发现特征重用在其中扮演着重要的角色。
- 全球小麦穗数据集 2021:增加多样性,提高小麦穗定位方法基准测试
通过重新审查、重新标记并添加额外的数据,2021 年的全球小麦穗检测(GWHD)数据集变得更大、更多样化、更可靠,吸引了计算机视觉和农业科学社区的关注,并在 AIcrowd 上组织了新的数据挑战。
- 学习曲线理论
本研究论文重点研究了神经网络中数据尺寸 (n) 对于训练或测试误差的普适性缩放规律,并通过研发最简单的模型来分析学习曲线,探究数据分布是否对于这种规律产生影响。
- EMNLP数据规模和频率范围对分布语义模型的影响
本研究旨在探究数据规模和频率范围对分布语义模型的影响。比较了几种代表性模型在不同规模的数据和各种不同频率的测试项下的性能表现。结果表明,当数据规模较小时,基于神经网络的模型表现不佳,而在各种规模和频率范围的数据下,可靠性最高的模型是倒置分解 - ACL双向长短时记忆模型与辅助损失实现的多语言词性标注
本研究采用词、字符和 Unicode 字节嵌入比较 bi-LSTM 和传统的 POS 标注器,在 22 种语言中取得了最优性能,并表明 bi-LSTM 对于训练数据大小和标签污染的敏感度被过高估计。
- 以深度嵌入为手段实现极致准确性:人脸识别
本文提出了一种基于 CNN 和度量学习的两阶段方法,以实现面部验证和识别。实验表明,该方法优于其他最先进的方法,获得 99.77% 的成对验证准确度,并在其他两个更实用的协议下获得更好的准确度。本文也讨论了数据大小和补丁数量的重要性,展示了 - ICML基于高斯过程的可扩展非参数贝叶斯点过程推断
本文提出了第一个使用高斯过程的非参数贝叶斯模型,在不用网格化域或引入潜在稀化点的情况下对泊松点过程进行推断。我们设计了 MCMC 采样器,并展示了我们的模型在合成数据和实际数据上比竞争模型更快,更准确且生成的样本更少相关性。最后,我们证明我