通过研究模型在训练过程中的随机性,我们发现在自然语言理解任务中,模型的预测结果的不稳定性会对一部分查询产生影响,提出了一种衡量稳定性现象的方法 —— 标签熵,我们研究了数据不可知的正则化方法和新的数据中心方法,发现它已在计算成本的分数中取得了 90% 的性能优势以及金标准的表现。
May, 2023
研究了在电子健康记录上训练不同模型的稳定性,证明相同模型在相同训练数据上的重复训练会产生显著不同的结果,并提出了衡量模型的稳定性和提高模型稳定性的应对策略。
Nov, 2022
对现代自然语言处理管道的核心构建块 —— 预训练词嵌入的稳定性进行深入研究,通过提出新的嵌入不稳定性度量来解释模型训练的不稳定性,并提出提高嵌入存储大小以达到降低不稳定性的稳定性 - 内存权衡。
Feb, 2020
通过使用混合整数优化算法,在重新训练机器学习模型时考虑到不同数据批次更新的稳定性,通过使用自定义的距离度量指标来实现保持一致的分析洞察力,并在一个真实的生产案例中展示出比贪婪训练模型更强的稳定性。重要的分析洞察力在重新训练迭代中保持一致。
Mar, 2024
本文介绍 LSTM 深度学习模型在情感分析中的应用,探讨其关键参数及模型稳定性问题。
本文研究了模型集成作为一种提高在线持续学习性能和稳定性的方法,并且通过使用轻量级时间集成方法以及结合文献中的几种方法,我们表明该方法可以显着提高性能和稳定性。
Jun, 2023
在连续流数据的情景中,深度神经网络在解决多个分类任务时,面临着保持旧任务知识同时学习新任务的挑战。本研究分析了当前度量方法的局限性,发现了新任务引起的遗忘问题,并提出了一套考虑任务难度增加的新度量方法,实验证明这些度量方法能够提供有关模型在连续学习环境中平衡稳定性和可塑性的新见解。
Sep, 2023
本文针对循环神经网络的稳定性进行了深入探究,理论上证明在推断和通过梯度下降进行训练时,稳定循环神经网络可以很好地被前馈网络近似。实验上,我们展示了基准序列任务中稳定循环模型通常能够和不稳定的对应物一样好地发挥作用。这些发现揭示了循环网络的有效力量,并暗示序列学习的大部分发生在稳定的状态下。此外,我们的结果有助于解释为什么在许多情况下,实践者成功地通过前馈模型取代循环模型。
May, 2018
研究了提高模型稳定性的各种技术,从而最小化机器学习中隐私化的负面影响。
May, 2024
本论文提出一个连续的学习框架,旨在解决神经网络训练过程中遗忘的问题,并定义了一系列新的指标来实现对学习机的实时评估,研究表明既有重放机制又有正则化机制的在线学习方法都存在稳定性差距的问题。
May, 2022