training procedure | BriefGPT

关键词training procedure

搜索结果 - 46

CycleGAN 的理论洞见：分析非成对数据生成中的近似和估计误差
本研究聚焦于分析对称生成对抗网络（CycleGAN）的异常风险。我们通过考虑模型结构和训练过程的影响，将风险分解为逼近误差和估计误差，并通过分析这些错误以及它们之间的权衡提供了对 CycleGAN 性能的理论洞见。
PDF11 days ago
基于等分布的自由节结样条和 ReLU 神经网络训练
使用 ReLU 激活函数和 Free Knot Splines 等传统方法进行浅层神经网络的一维函数逼近问题的研究，通过优化 ReLU NN 的训练程序，结合等分布原理提供了一种可靠的方法来获得准确的 ReLU NN 逼近目标函数的结果。
PDF25 days ago
探究语音自监督模型中的 ' 自编码器行为 ': 以 HuBERT 的预训练为重点
自我监督学习在语音识别中取得了巨大成功，然而已观察到微调学习模型的所有层相对于重设顶层会导致性能下降，这种现象被归因于 "自编码器" 行为：顶层包含更接近于输入的信息，对于需要语言信息的任务（例如语音识别）不太适用。为了更好地理解这种行为，
PDF2 months ago
ICCVEfficientTrain++：高效视觉主干训练的广义课程学习
通过使用更简单的数据对形成更难样式的模型进行培训，我们将课程学习的思想进行了一般化。我们通过引入傅立叶光谱的裁剪操作和数据增强的强度调制，设计出一种简单而高效的培训方法 EfficientTrain++，它减少了各种流行模型在 ImageN
PDF2 months ago
PatentGPT：一个大规模的知识产权语言模型
应用大型语言模型在知识产权领域具有挑战性，本研究提出了一种低成本、标准化的过程来训练面向知识产权的语言模型，成功满足了该领域的需求，并证明了在知识产权领域中专门训练的模型的有效性。
PDF3 months ago
ScaleFold: 将 AlphaFold 初始训练时间缩短至 10 小时
AlphaFold2 是蛋白质折叠领域的突破性成果，但其实现不包括必要的训练代码。OpenFold 是 AlphaFold 的第一个可训练的公共重新实现。本研究在 OpenFold 的基础上对 AlphaFold 的训练过程进行了全面分析，
PDF3 months ago
稳定的 LM 2 1.6B 技术报告
我们介绍了 StableLM 2 1.6B，这是我们语言模型系列的新一代产品。在本技术报告中，我们详细介绍了 StableLM 2 1.6B 的基础版本和指令调优版本的数据和训练过程。我们提供了这两个模型的权重供任何人下载和使用。本报告对这
PDF5 months ago
近似高斯过程的基准线和基准测试建议
高斯过程是机器学习工具箱中成熟且广泛使用的组成部分之一。论文提出了一种基于方法所期望的指标来比较高斯过程的近似方法的建议，并开发了一种训练过程，使用户不需要进行选择。研究结果表明，根据这些建议进行基准测试可以更清楚地了解领域的当前状况，并揭
PDF5 months ago
通过在分段序列上训练扩展语言模型的输入上下文
在没有架构更改和额外存储成本的情况下，通过对分段序列的训练和基于插值的方法来扩展绝对位置嵌入，我们开发了一种训练过程，以扩展预训练模型的输入上下文大小。我们的方法能够将输入上下文扩展 4 倍，同时改善困惑度。
PDF9 months ago
基于贝叶斯推断修剪神经网络
我们提出了一种利用贝叶斯推断的剪枝神经网络的新方法，该方法可以无缝地融入训练过程，并通过计算贝叶斯因子来指导迭代剪枝，从而实现所需的稀疏度，并保持竞争性的准确性。
PDFa year ago
FlexiAST：AST 所需的灵活性
这篇论文的目标是给予音频谱图变换器（AST）补丁尺寸的灵活性，通过提出一种训练过程来为标准 AST 模型提供灵活性，使其在推理阶段可以使用各种补丁尺寸，实验证明 FlexiAST 在不同数据集的音频分类任务中，在不同补丁尺寸下保持了与标准
PDFa year ago
基于风险厌恶的领域泛化快速神经风格平滑
本论文提出了一种基于测试时间神经风格平滑和神经风格平滑训练程序的领域泛化风险规避分类器，该分类器使用神经风格转移模块实现实时的图片风格调整，并在测试时利用黑盒访问领域泛化分类器，通过对多种风格的图像的识别结果进行综合以提高预测抗风险的能力，
PDFa year ago
使用置信度阈值训练高维计算分类器
本文介绍了一种扩展超维计算（HDC）训练过程的方法，通过考虑那些被 HDC 模型正确分类但置信度低的样本来达到更好的分类准确性，并在 UCIHAR、CTG、ISOLET 和 HAND 数据集上测试证实了该方法的有效性。
PDFa year ago
简单图神经网络中的可解释性
本文首次提出了基于支持子集以及基于超球的投影法代替凸多面体构建的 Simplicial map neural networks（SMNNs）的训练过程，同时也首次引入 SMNNs 的可解释性能力。
PDFa year ago
CCT-Code: 多语言克隆检测与代码搜索的跨一致性训练
本文提出了一个新的多语言代码克隆检测问题，以及一种名为 cross-consistency training (CCT) 的新型训练程序和一种 CCT-LM 语言模型，该模型在不同编程语言的源代码上训练，在 POJ-104 代码克隆检测基准
PDFa year ago
民主化扩散语言模型
本文旨在提出一种去中心化的扩散语言模型（DDLM），该模型基于连续性扩散的范畴数据（CDCD）框架，使用 C4 数据集进行简化的培训过程，并提出一种新颖的早期退出策略，通过 GLUE 基准研究 DDLM 的知识转移能力。
PDFa year ago
MM宽神经网络：从非高斯随机场的初始化到 NTK 训练几何
本文研究了具有大规模参数的人工神经网络，并探究了正态性的校正、宽神经网络的演化控制、与高概率训练的全局最小值等。
PDFa year ago
深度长短时记忆网络：稳定性质和实验验证
探究使用增量输入状态稳定化深度循环神经网络来识别非线性动态系统，提出了可学习被证明为增量输入状态稳定化的 LSTM 模型训练方法，并在实际制动器系统的输入输出实验数据中进行测试，结果表明建立的模型性能良好。
PDFa year ago
AAAI利用旧知识持续学习医学图像中的新类别
本文提出了一种两个主要组成部分的框架来避免类别增量持续学习中的灾难性遗忘，包括动态架构和训练过程，结果表明这种解决方案在医疗数据集上能够实现比现有技术水平更好的类别准确性和遗忘能力。
PDFa year ago
MMCL2R: 兼容的终身学习表示
本文提出了一种通过局部和全局平稳性训练，实现生涯学习的兼容表示学习，可用于识别动态宇宙中的物体实例，并在标准基准数据集上比替代基线和最先进方法表现更好，同时提供了特定指标来评估各种序列学习任务中灾难性遗忘下的兼容性学习。
PDF2 years ago