- 两阶段 CNN 检测方法中抑制 FP 的 PST 算法
通过重新设计两阶段卷积神经网络检测方法的训练提议生成流程,本文提出了一种行人敏感的训练算法,用于帮助学习区分行人和非行人样本,并抑制最终检测结果中的伪阳性。实验证明了该算法提高了行人检测的准确性,与竞争者相比,MetroNext-PST 在 - 人工神经网络轨迹的动力稳定性与混沌
通过分析网络轨迹和学习过程中的动力学特性,研究了浅层神经网络在简单分类任务中的演化过程,发现不同学习速率下的动力学和轨道稳定性,这一发现与神经网络和动力学系统理论的常见智慧相对照,为动力系统理论、网络理论和机器学习之间的相互交流提供了贡献。
- 软学习概率电路
PC 模型是具有范围完全推理能力的显著可计算的概率模型,该论文主要关注用于训练 PC 模型的主要算法 LearnSPN,我们提出了一种名为 SoftLearn 的新的学习过程,通过软聚类过程诱导出一个 PC 模型,实验证明 SoftLear - 多模态学习稀疏检索与概率扩展控制
通过利用 Bernoulli 随机变量控制查询扩展,我们提出的训练算法能够有效减少高维共同激活和语义偏差,并在多模态设置中训练了一种有效的 LSR (learned sparse retrieval) 检索模型,该模型在训练时间和 GPU - 比较两层神经网络的频谱偏差和鲁棒性:SGD 与自适应随机傅里叶特征
我们通过实验结果发现,训练算法选择引起了两层神经网络的两个关键差异。神经网络的谱偏倚是众所周知的,而谱偏倚对于训练算法的选择依赖则研究较少。我们的实验表明,自适应随机傅里叶特征算法(ARFF)相比于随机梯度下降优化器(SGD)可以产生更接近 - 使用前向 - 前向算法训练卷积神经网络
探索了前馈算法在卷积神经网络中的应用,并使用新的标记技术,在 MNIST 手写数字数据集上实现了 99%的分类准确率,并比较了不同超参数对算法性能的影响。
- 使用内部状态,无限制连接和离散激活训练神经网络
正在这篇论文中,我们尝试设计一种机器学习算法,用于具有二元激活和单个权重矩阵的架构,并展示它能够形成自然语言文本的有用表示,但在利用大量训练数据方面存在限制。我们提供了改进该算法和设计类似架构的其他训练算法的想法,并讨论了找到有效的训练算法 - AAAI利用对称的时间稀疏 BPTT 提高 RNN 训练效率
Delta RNN 利用时间稀疏性在推理过程中跳过被禁用神经元的隐藏状态更新,其训练算法在反向传播阶段利用时间稀疏性来减少边缘计算的计算要求。
- 学习低秩特征表示:在连续学习中更好地平衡稳定性和可塑性
提出了一种名为 LRFR 的新型训练算法,通过在过去任务的特征表示矩阵的零空间中优化网络参数来保证稳定性,同时在训练各个任务时仅选择网络各层中的部分神经元来学习过去任务的特征表示矩阵以增加零空间维度,从而增强了网络参数设计时的可塑性,该方法 - DreamSync:将文本到图像生成与图像理解反馈对齐
通过使用无需标记数据的 DreamSync 训练算法,结合大视觉语言模型(VLMs)来改进文本到图像模型(T2I)的语义对齐和美观度。
- 两层非线性回归的近似牛顿方法的局部收敛性
我们对两层回归问题进行了分析,使用了 softmax 激活单元作为第一层,并分析了近似牛顿法用于最小化正则化训练损失的收敛性质,证明了 Hessian 矩阵的损失函数是正定和 Lipschitz 连续的,在适当的初始化和迭代次数后,我们的算 - ICML指数权重平均作为阻尼谐振
该论文研究了指数移动平均 (EMA) 在深度学习优化中的应用,提出了一种改进的训练算法 BELAY,通过物理类比分析 EMA 的有效性,并在理论和实证上证明了 BELAY 相对于标准 EMA 的几个优点。
- 通过互动演示教授语言模型自我提升
通过 TriPosT 训练算法,这篇论文介绍如何赋予更小的模型自我改进的能力,从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距,并且通过与大型语言模型进行互动,收集反馈和改进,并将这一经验用于训练小模型,实验证明通过学习和纠 - 语言模型的策略梯度训练方法用于排名
通过利用大规模预训练语言模型,我们引入了一种名为 Neural PG-RANK 的新型训练算法,该算法通过实例化一个语言模型为 Plackett-Luce 排序策略,为检索模型的端到端训练提供了一种合理的方法,并有效地将训练目标与下游决策质 - 基于观测引导的扩散概率模型
我们提出了一种新颖的扩散模型,称为观测引导扩散概率模型 (OGDM),它有效地解决了质量控制和快速采样之间的权衡问题。
- 通过动态边距最大化和改进的 Lipschitz 正则化实现的认证鲁棒性
通过开发一个鲁棒的训练算法和有效计算神经网络的 Lipschitz 常数的方法,可以直接操控输入空间的决策边界,提高深度分类器对抗性扰动的鲁棒性。在 MNIST、CIFAR-10 和 Tiny-ImageNet 数据集上的实验证实了该算法的 - 生成森林
本研究论文介绍了一种用于密度建模和表格数据生成的基于树的生成模型,该模型提高了最新提案的建模能力,并提出了一种简化先前方法训练设置并显示提升一致性收敛性的训练算法。通过实验验证了我们方法在缺失数据插补和生成数据与真实数据对比方面的优质结果。
- 基于矩阵积态的生成模型分布式预训练
本文提出了一种以基础张量网络操作 (例如求和和压缩) 为特征的训练模型算法,主要应用于机器学习中的 MNIST 数据集,结果表明该算法具有合理的生成新图像和分类任务的能力,并解释其作为压缩量子核密度估计的算法实现。
- 神经网络训练算法基准测试
本文提出了一个新的竞争性算法基准测试,AlgoPerf:训练算法基准测试,在多个工作负载上运行固定的硬件,解决了评估训练算法改进的三个基本挑战,包括如何确定训练何时结束和精确测量训练时间,如何处理测量对确切工作负载细节的敏感性,以及如何公平 - 分层注意力编码器解码器
本文提出了一种基于分层循环编码器解码器结构的模型,通过采样 softmax 估计开发了一种训练算法,可以在不需要高频解码器的情况下训练整个模型,显著降低了自回归模型训练的存储需求并改进了总的训练时间。