training stability | BriefGPT

关键词training stability

搜索结果 - 47

从 FP8 回到 FP 减少精度对 LLM 训练稳定性的效果量化
降低精度的浮点表示在大型语言模型（LLM）训练中的稳定性及经济性的调查和分析。
PDFa month ago
对于多样化任务和模型规模的鲁棒学习的对称强化学习损失
通过从有噪声数据中借鉴逆交叉熵（RCE）的方法将其适应于强化学习，定义了一种对称的 RL 损失，从而提高了 RL 训练的稳定性。在离散动作任务（Atari 游戏）和连续动作空间任务（MuJoCo 基准和 Box2D）中进行了实验，并通过改进
PDFa month ago
视觉强化学习中无界数据增强的配方
通过数据增强的广义方法 SADA，可以提高 Q - 学习算法在视觉观察训练中的稳定性和泛化能力，适用于各种数据增强方式。
PDFa month ago
MCGAN：基于回归的生成器损失增强的 GAN 训练
生成对抗网络（GAN）已经成为一种生成高保真数据的强大工具，并且采用监督方法提出了 Monte Carlo GAN（MCGAN）算法，以解决现有方法在生成器训练上缺乏监督导致的振荡与性能不佳的问题，并且数值结果表明 MCGAN 在质量、准确
PDFa month ago
分布式学习算法性能评估研究
分布式学习是一种实际的方法，用于从分散的数据中训练模型。分布式学习算法（如 FedAvg、FedProx、FedYogi、FedAdam、SCAFFOLD 和 FedDyn）的综合性能评估揭示了单一算法在不同性能指标上表现并不最佳，同时也存
PDF3 months ago
医疗数据集提炼的渐进式轨迹匹配
我们提出了一种新的医学图像数据集精华方法，通过设计新的渐进轨迹匹配策略提高了医学图像数据集精华的训练稳定性，并通过动态消除不同图像之间的重叠来改善合成数据集的多样性和最终性能，进而在各种模态和配置上建立了一个新的医学图像数据集精华基准，实验
PDF3 months ago
从屏幕截图提升语言理解能力
我们提出了一种新颖的 Patch-and-Text Prediction (PTP) 目标函数，通过掩盖和恢复截图中的图像块和文本，改善了截图语言模型的文本能力，并通过在 GLUE 任务上获得与 BERT 相当的性能（在 2% 之内）以及高
PDF4 months ago
一个高效的通用化视觉动作策略框架：基于控制感知增强和特权引导蒸馏
通过数据增强来解决在学习高维视觉观察中适应新环境及复杂视觉变化所面临的泛化问题，提出了学习控制感知掩码的方法以及通过预先训练的强化学习专家将知识传输给学生视觉动作策略来解决训练不稳定性问题。
PDF6 months ago
AAAIFedDiv: 面向带有噪声标签的联邦学习的协作性噪声过滤
FedDiv 提出了一种全局噪声滤波器和一种基于预测一致性的采样器来提高联邦学习中的训练稳定性并解决噪声标签的问题。在 CIFAR-10、CIFAR-100 和 Clothing1M 数据集上进行的实验表明，FedDiv 在不同噪声标签设置
PDF6 months ago
ScaleLong: 通过缩放网络长跳连接实现扩散模型更稳定的训练
UNet 的长跳连接系数对其前向和反向传播的稳定性以及鲁棒性有重大影响，理论解释了 UNet 训练的不稳定性，通过 LSC 系数缩放来提高训练稳定性
PDF8 months ago
通过群不变学习提高对人类偏好的对齐的泛化能力
通过增强学习技术，我们提出了一种新方法来训练基于语言模型的 AI 助手，在不同数据组和领域之间实现一致的策略，并提高训练稳定性和模型泛化能力。
PDF9 months ago
有限数据下的图像合成：调查与分类
深度生成模型在有限数据的图像合成领域取得了显著进展，本文填补了这一领域中问题定义、已有文献的优缺点及限制的系统调查的空白，并提供了详细的问题分类、解决方案、流行基准和未来方向的综合综述。
PDFa year ago
ACLCAME：基于置信度的自适应内存高效优化
本研究提出了一种同时具有传统自适应方法快速收敛和内存高效方法的名为 CAME 的优化器，实验证明它在 NLP 任务中很稳定并具有更高的性能。
PDFa year ago
BranchNorm: 极深 Transformer 网络的鲁棒缩放
本文提出了一种名为 BranchNorm 的方法，用于以更好的效果平衡训练稳定性和收敛性来动态重新调整 Transformer 的分支。
PDFa year ago
ICLRLipsFormer：向视觉 Transformer 引入 Lipschitz 连续性
本研究提出了一种 Lipschitz 连续变压器 ——LipsFormer，为基于 Transformer 的模型的稳定训练提供了理论和实证支持。我们尝试通过 Lipschitz 连续性代替传统的不稳定 Transformer 组件模块，包
PDFa year ago
防止注意力熵崩塌以稳定 Transformer 训练
本文通过追踪每层 Transformer 中 attention head 的注意熵来检验其训练动态。作者提出了一个名为 entropy collapse 的现象，即低的注意熵伴随着高的训练不稳定性，提出了一种简单高效的解决方案 sigma
PDFa year ago
KDDM-EBM: 了解基于能量模型的流形
本研究提出了一种流形能量模型（M-EBM），以提高 unconditional EBM 和 Joint Energy-based Model (JEM) 的整体性能，在众多基准数据集上均显着提高训练稳定性和速度，在有类标签的情况下，标签集成
PDFa year ago
生成混合模式语言模型的缩放定律
研究了混合式语言生成模型的规模特性及其相互作用，提出了新的混合式扩展定律，并发现了四种训练现象和各种相互作用连接。
PDFa year ago
EMNLP通过一组基于组件的梯度范数裁剪，提高预训练语言模型的微调稳定性
本文提出了一种简单的分量梯度范数裁剪方法，用于调整不同组件的收敛速度。实验表明，该方法在泛化性能、收敛速度和训练稳定性方面取得了一致的改进。
PDF2 years ago
基础 Transformer
本研究提出了一种新型的 Transformer 变种 ——Magneto，其引入了 Sub-LayerNorm 来提高表达能力，并从 DeepNet 导出了一种初始化策略以保证稳定的扩展性，旨在成为一个通用的架构，提高多任务和多模态任务的训
PDF2 years ago