- 基于等分布的自由节结样条和 ReLU 神经网络训练
使用 ReLU 激活函数和 Free Knot Splines 等传统方法进行浅层神经网络的一维函数逼近问题的研究,通过优化 ReLU NN 的训练程序,结合等分布原理提供了一种可靠的方法来获得准确的 ReLU NN 逼近目标函数的结果。
- 探究语音自监督模型中的 ' 自编码器行为 ': 以 HuBERT 的预训练为重点
自我监督学习在语音识别中取得了巨大成功,然而已观察到微调学习模型的所有层相对于重设顶层会导致性能下降,这种现象被归因于 "自编码器" 行为:顶层包含更接近于输入的信息,对于需要语言信息的任务(例如语音识别)不太适用。为了更好地理解这种行为, - ICCVEfficientTrain++:高效视觉主干训练的广义课程学习
通过使用更简单的数据对形成更难样式的模型进行培训,我们将课程学习的思想进行了一般化。我们通过引入傅立叶光谱的裁剪操作和数据增强的强度调制,设计出一种简单而高效的培训方法 EfficientTrain++,它减少了各种流行模型在 ImageN - PatentGPT:一个大规模的知识产权语言模型
应用大型语言模型在知识产权领域具有挑战性,本研究提出了一种低成本、标准化的过程来训练面向知识产权的语言模型,成功满足了该领域的需求,并证明了在知识产权领域中专门训练的模型的有效性。
- ScaleFold: 将 AlphaFold 初始训练时间缩短至 10 小时
AlphaFold2 是蛋白质折叠领域的突破性成果,但其实现不包括必要的训练代码。OpenFold 是 AlphaFold 的第一个可训练的公共重新实现。本研究在 OpenFold 的基础上对 AlphaFold 的训练过程进行了全面分析, - 稳定的 LM 2 1.6B 技术报告
我们介绍了 StableLM 2 1.6B,这是我们语言模型系列的新一代产品。在本技术报告中,我们详细介绍了 StableLM 2 1.6B 的基础版本和指令调优版本的数据和训练过程。我们提供了这两个模型的权重供任何人下载和使用。本报告对这 - 近似高斯过程的基准线和基准测试建议
高斯过程是机器学习工具箱中成熟且广泛使用的组成部分之一。论文提出了一种基于方法所期望的指标来比较高斯过程的近似方法的建议,并开发了一种训练过程,使用户不需要进行选择。研究结果表明,根据这些建议进行基准测试可以更清楚地了解领域的当前状况,并揭 - 通过在分段序列上训练扩展语言模型的输入上下文
在没有架构更改和额外存储成本的情况下,通过对分段序列的训练和基于插值的方法来扩展绝对位置嵌入,我们开发了一种训练过程,以扩展预训练模型的输入上下文大小。我们的方法能够将输入上下文扩展 4 倍,同时改善困惑度。
- 基于贝叶斯推断修剪神经网络
我们提出了一种利用贝叶斯推断的剪枝神经网络的新方法,该方法可以无缝地融入训练过程,并通过计算贝叶斯因子来指导迭代剪枝,从而实现所需的稀疏度,并保持竞争性的准确性。
- FlexiAST:AST 所需的灵活性
这篇论文的目标是给予音频谱图变换器(AST)补丁尺寸的灵活性,通过提出一种训练过程来为标准 AST 模型提供灵活性,使其在推理阶段可以使用各种补丁尺寸,实验证明 FlexiAST 在不同数据集的音频分类任务中,在不同补丁尺寸下保持了与标准 - 基于风险厌恶的领域泛化快速神经风格平滑
本论文提出了一种基于测试时间神经风格平滑和神经风格平滑训练程序的领域泛化风险规避分类器,该分类器使用神经风格转移模块实现实时的图片风格调整,并在测试时利用黑盒访问领域泛化分类器,通过对多种风格的图像的识别结果进行综合以提高预测抗风险的能力, - 使用置信度阈值训练高维计算分类器
本文介绍了一种扩展超维计算(HDC)训练过程的方法,通过考虑那些被 HDC 模型正确分类但置信度低的样本来达到更好的分类准确性,并在 UCIHAR、CTG、ISOLET 和 HAND 数据集上测试证实了该方法的有效性。
- 简单图神经网络中的可解释性
本文首次提出了基于支持子集以及基于超球的投影法代替凸多面体构建的 Simplicial map neural networks(SMNNs)的训练过程,同时也首次引入 SMNNs 的可解释性能力。
- CCT-Code: 多语言克隆检测与代码搜索的跨一致性训练
本文提出了一个新的多语言代码克隆检测问题,以及一种名为 cross-consistency training (CCT) 的新型训练程序和一种 CCT-LM 语言模型,该模型在不同编程语言的源代码上训练,在 POJ-104 代码克隆检测基准 - 民主化扩散语言模型
本文旨在提出一种去中心化的扩散语言模型(DDLM),该模型基于连续性扩散的范畴数据(CDCD)框架,使用 C4 数据集进行简化的培训过程,并提出一种新颖的早期退出策略,通过 GLUE 基准研究 DDLM 的知识转移能力。
- MM宽神经网络:从非高斯随机场的初始化到 NTK 训练几何
本文研究了具有大规模参数的人工神经网络,并探究了正态性的校正、宽神经网络的演化控制、与高概率训练的全局最小值等。
- 深度长短时记忆网络:稳定性质和实验验证
探究使用增量输入状态稳定化深度循环神经网络来识别非线性动态系统,提出了可学习被证明为增量输入状态稳定化的 LSTM 模型训练方法,并在实际制动器系统的输入输出实验数据中进行测试,结果表明建立的模型性能良好。
- AAAI利用旧知识持续学习医学图像中的新类别
本文提出了一种两个主要组成部分的框架来避免类别增量持续学习中的灾难性遗忘,包括动态架构和训练过程,结果表明这种解决方案在医疗数据集上能够实现比现有技术水平更好的类别准确性和遗忘能力。
- MMCL2R: 兼容的终身学习表示
本文提出了一种通过局部和全局平稳性训练,实现生涯学习的兼容表示学习,可用于识别动态宇宙中的物体实例,并在标准基准数据集上比替代基线和最先进方法表现更好,同时提供了特定指标来评估各种序列学习任务中灾难性遗忘下的兼容性学习。
- ECCV通过增强弱子网络来提高鲁棒性
研究表明深度网络对扰动非常敏感,本文提出一种新的训练方法,通过弱子网的增强来提高深度网络的鲁棒性,这种方法提高了对受损图像的鲁棒性,同时在未经损坏的数据上提高了准确性。