- 使用期望最大化和修剪改进的子单词分割算法 Morfessor EM+Prune
本文介绍了一种针对单语词根基于期望最大化算法和词典剪枝的 unigram 子词模型的训练算法,并比较了不同算法在英语、芬兰语、北萨米语和土耳其语数据集上的效果。通过改进优化问题,提高了基于语言黄金标准的单词分割的准确率。同时,我们在广泛使用 - 利用神经元和突触滤波器动态特性在深度脉冲神经网络的时空学习中实现利用
提出一种训练算法,将 SNN 作为无限脉冲响应(IIR)滤波器的网络,以学习 SNN 的时空模式,并构建用于合成和公共数据集的联想记忆和分类器,其准确度优于最先进的方法。
- ICML通过控制神经网络权重中的标签噪声信息来提高泛化能力
研究发现,神经网络在存在噪声或不正确标签的情况下,往往会记住有关噪声的信息。为了减少这种记忆现象,提高泛化能力,本文提出使用一个辅助网络来训练,并利用 Shannon 互信息量化记忆的信息量。在 MNIST、CIFAR-10、CIFAR-1 - QUOTIENT:双方安全神经网络训练和预测
研究在设计新的安全协议方案的同时,开发训练算法,提出 QUOTIENT:这是一种离散化的 DNN 训练方法,结合定制的安全两方协议,并取得了 50 倍的改进和 6%的准确率提高。
- ICML学习潜变量模型中过度参数化的益处的实证研究
通过合成和半合成实验,我们对无监督学习中的超参数化不同方面进行了实证研究,发现在各种模型(如嘈杂 OR 网络、稀疏编码、概率上下文自由语法)和训练算法(如变分推断、交替最小化、期望最大化)中,超参数化可以显著增加回收潜在变量的数量。
- 迭代训练程序添加差分隐私的一般方法
本文介绍了一种模块化方法,可以最小化对训练算法的更改,提供各种隐私机制的配置策略,并隔离和简化计算最终隐私保证的关键逻辑,以解决在隐私敏感数据集上训练机器学习模型所面临的实际挑战。
- 使用变分不等式实现 GANs 的全局收敛到平衡点
通过对变分不等式框架的分析,我们发现在 GAN 的基本变体 Wasserstein Linear-Quadratic GAN 中,直接梯度下降方向会导致不收敛,而特定的正交方向可以实现收敛,我们称之为 “通过卷曲”,这是命名来源于其数学推导 - NIPS训练神经网络的统一框架
我们提出了一个统一的优化框架,用于训练不同类型的深度神经网络,并在任意损失、激活和正则化函数上建立其收敛性。该框架推广了众所周知的一阶和二阶训练方法,并允许我们展示这些方法在各种深度神经网络架构和学习任务中的收敛性为我们的方法的一种特殊情况 - ICML学习梯度下降:更好的泛化和更长的视野
本文提出了一种学习自我学习模型和一些实用技巧,以优化损失函数的训练问题,其优化器在许多任务上优于通用的优化算法和 DeepMind 的学习优化器,包括深度 MLP、CNN 和简单的 LSTM。
- 高阶分解机
本文介绍了一种用于训练任意阶 HOFMs 的通用且高效的算法,以及具有共享参数的新变体,这大大减少了模型大小和预测时间,同时保持了类似的准确性,并在四个不同的链接预测任务上演示了所提出的方法。
- adaQN: 一种适应性拟牛顿算法用于训练循环神经网络
本篇论文提出了一种名为 adaQN 的随机拟牛顿算法,用于解决循环神经网络 (RNN) 训练中的梯度消失 / 爆炸问题,该方法使用了一种新的 L-BFGS 缩放初始化方案,并且在存储和保留 L-BFGS 曲率对方面非常明智,实践表明 ada - ACL机器翻译中实用的神经语言模型
该研究论文深入探讨了集成神经语言模型在翻译系统中的应用,评估了多种扩展神经模型的技术对最终翻译质量的影响,并提出了一系列训练算法、优化技巧和建议,以构建一个适用于机器翻译的可扩展的神经语言模型。
- 学习二元随机前向神经网络的技术
研究了使用 M 个隐藏层激活的样本进行训练时的随机网络,探讨了三种潜在好处,即允许学习一对多类型的映射,可用于内部结构重要的结构预测问题以及在一般情况下启用更好的概括性能。同时提出了两种新的梯度估计器来训练随机网络,实验证明这两种估计器在训 - 利用高斯 - 二元受限玻尔兹曼机模拟自然图像统计
本文从密度模型的角度出发,对高斯 - 二进制受限玻尔兹曼机(GRBM)进行理论分析,展示了 GRBM 的一些性能和限制,讨论了训练算法的几个关键点,并与其他改进的模型进行了比较。