- 线性化神经网络在泛化方面的实际表现
该论文通过对神经网络和它们的线性近似在不同任务上的行为进行系统比较,提供了强有力的实证证据来确定近似的实际有效性,发现网络并不总是表现优于其核近似,并揭示了性能差距很大程度上取决于网络架构、数据集大小和训练任务。此外,研究发现网络在训练过程 - ACL作者至关重要:理解和减轻深度文本分类中的隐性偏见
本文研究探究深度文本分类模型中的显式和隐式偏差,并提出了一种 Debiased-TC 框架来缓解隐式偏差并提高模型的公平性及分类性能。
- 非凸矩阵分解的噪声梯度下降收敛于平坦极小值
本文研究了非凸矩形矩阵分解问题,通过引入噪声来解决全局极小值的不确定性,表明噪声向特定最优解施加了影响。
- ICLR关于隐式深度学习的理论:隐式层的全局收敛性
本文基于深度平衡模型,分析其具有非凸目标函数和非线性权重矩阵的回归与分类问题的梯度动态,证明了在没有对模型宽度的任何假设的情况下会以线性速率收敛到全局最优解,同时关注了隐式层的隐式偏差和其与浅层显式层的动态的关系。
- 深度矩阵分解的梯度下降算法:动力学和从低秩隐含的偏差
本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性,在线性网络和估计问题上,分析梯度下降中的 “有效秩” 动态变化,提出了矩阵低秩投影的有效秩,为理解深度学习奠定了基础。
- EMNLP加强有毒言论检测器以抵御隐晦的有毒言论
针对现代有毒言语检测器在辨识出具有隐蔽性的攻击语言(如故意避开已知有毒词汇表的对抗性攻击或内在偏见的表现)方面的无能,本文提出了一种框架,该框架旨在强化现有的有毒言语检测器,同时又不需要进行大规模的隐蔽性毒性标注语料库训练。只需用极少量的探 - ICLR线性神经网络训练中隐性偏差的统一视角
研究了线性神经网络训练中渐进流(即用无穷小步长的梯度下降法)的隐含偏差;提出了神经网络的张量形式,包括全连接、对角线和卷积网络等特例,并研究了称为线性张量网络的公式的线性版本。通过这个公式,我们可以将网络的收敛方向表征为由网络定义的张量的奇 - 深度线性分类中的隐式偏见:初始化规模与训练准确性
研究了在 “对角线线性网络” 上最小化指数损失的梯度流轨迹及其隐式优化偏差的详细渐近研究,揭示了 “核” 与非 “核”(“丰富” 或 “活跃”)状态之间的转换如何受初始缩放和最小化训练损失的精度之间的关系控制,结果表明,梯度下降的某些极限行 - 梯度下降遵循普通损失的正则化路径
本论文研究了机器学习中隐含的偏差及其对应的正则化解,并且根据理论证明我们使用的指数型损失函数的正则化效果,可达到最大保边缘的方向,相应的其他损失函数可能会导致收敛于边缘较差的方向。
- EMNLP无监督发现隐性性别偏见
本文提出了一种无监督的方法,通过倾向匹配和对抗性学习来降低混淆,并着重于展现隐含的性别偏见,并揭示了针对女性政治家的有偏见评论包含各种批评,而针对其他女性公众人物的评论则集中于外貌和性感方面。最终,我们的工作提供了一种在各个领域捕捉微妙偏见 - 隐性偏见能否解释泛化问题?随机凸优化作为案例研究
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制 SGD 泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解 - 存在隐性偏见情况下的排名干预措施
本研究讨论了设计干预措施的问题,以实现子集选择 - 排序的广义化。我们提出了一系列简单和可解释的约束,并表明它们可以最优地减轻隐性偏见,以及在自然分布的假设下,表现出类似 Rooney Rule 的约束也可以令减少的效用损失性最小。最后,我 - 通过原始 - 对偶分析表征隐式偏差
本文证明了对于线性可分数据,梯度下降的隐式偏差可以通过最优解的双重优化问题完全描述,从而实现了对一般损失的训练。此外,使用 L2 最大间隔方向的恒定步长可以获得 O (ln (n)/ln (t)) 的收敛速率,而使用适当选择的主动步长时间表 - AdaGrad 在可分数据上的隐式偏见
本文研究了 AdaGrad 在可分线性分类问题上的隐式偏差,并证明其收敛于一个可以被描述为具有与硬 SVM 问题相同可行集的二次优化问题的方向。此外,还讨论了不同的超参数选择对 AdaGrad 的影响,这增进了我们对为什么自适应方法在实践中 - MM深度网络中的动力学和泛化理论 III
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
- 均匀收敛可能无法解释深度学习中的泛化
通过实验结果,揭示了现存深度学习的多种基于均匀收敛理论的泛化界都是数值较大,因而引起了人们的质疑。而对于使用 GD 训练的超参数线性分类器和神经网络,即使我们考虑 GD 的隐式偏差,两边的均匀收敛都无法解释泛化,使得基于均匀收敛的泛化界失去 - 鉴别器 - 演员 - 评论家:解决对抗性模仿学习中样本低效和奖励倾向的问题
使用新算法 “Discriminator-Actor-Critic”,提出解决基于 Adversarial Imitation Learning 框架的两个问题:隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略 - 可分数据上梯度下降的收敛性
对采用严格单调尾部的损失函数(如对数损失)在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究,证明了对于一大类超多项式尾部损失,梯度下降迭代可以收敛到任意深度的线性网络的 L2 最大边距解。
- 用优化几何表征隐含偏见
研究了通用优化模型,如镜像下降、自然梯度下降和最速下降在欠定线性回归或可分线性分类问题上的隐式偏差以及关于算法得到的特定全局最小值是否可以独立于超参数选择,如步长和动量,用优化几何势或范数表征。
- 隐性偏见下的选择问题
研究隐性偏见对选拔决策的影响并计算可能的程序性解决方案,在具有概率辅助信息下的顺序统计量下,探索偏见与应聘者特征分布之间微妙的权衡关系。