- 基于自然聚类先验的深度学习理解
该研究通过对深度神经网络的训练动态、神经元和层级表示的广泛实证研究,尝试辨别深度学习系统中隐含的聚类能力、机制和超参数,评估它们对解释这些系统的泛化能力的相关性,从而阐述了先验知识在机器学习设计中的重要性。
- 深度学习优化领域中的低通滤波式 SGD 用于恢复平坦极值
研究深度学习模型的损失函数梯度下降优化算法,发现低通滤波器滤波后的测量值与 DL 模型的泛化能力最为相关,提出一种基于低通滤波器的优化算法 LPF-SGD,通过梯度与卷积计算实现,与常见的 DL 训练方法相比,该算法在实验中表现出更好的泛化 - ACL通过过程环境生成进行情境对话学习
通过在生成的课程上训练,我们教会了目标驱动型智能体在位置化环境中交互行为和语言表达。我们通过在大规模众包幻想文本冒险游戏(LIGHT)中学习,增强了 LIGHT 的功能,并学会了生成额外的小说文本世界和任务,以创建一个渐进式递增难度的课程, - 深度神经网络能够泛化到哪些超出分布的物体方位?
本文通过对深度神经网络(DNNs)在不同方向识别对象的表现进行了探究,并系统地检查了 DNNs 的通用性能力的限制,研究了数据多样性对其的影响,并得出了一个有趣的结论:DNNs 只能泛化到像 2D 一样的对象实例,即平面内旋转的内部分布方向 - UPDeT:基于 Transformer 的策略解耦通用多智能体强化学习
本文提出了一种称为 Universal Policy Decoupling Transformer (UPDeT) 的 transformer-based 模型,可插入任何多智能体强化学习管道并具备强大的泛化能力,证明了相对于现有方法具有优 - 你的生物医学命名实体识别模型如何推广到新实体?
本文系统地分析了生物识别模型的三种识别能力:记忆,同义词泛化和概念泛化,并发现现有模型在识别同义词和新的生物概念方面存在局限性,这表明他们的泛化能力被高估了。作者调查了模型的失败案例,并确定了识别未见过的生物词汇的几个困难。最后,作者采用基 - MM关于视觉指代协作游戏中紧急系统化普适性与组合性的直通 Gumbel-Softmax 估计器
通过测试训练数据分配策略、信道大小、词汇量大小及计算最大句子长度等几个方面,探究了词组合性和一般化能力在视觉谈判游戏中的具体应用情况。结果表明,采用适当的信道大小和适当的训练策略,可以提高视觉任务中的语言组合性及语言生成的一般化能力。
- KDD凸神经网络的奇特案例
本文研究基于凸性的神经网络架构和其对泛化能力和过度拟合的影响,限制权重为非负并使用非递减凸激活函数可以让神经网络自我正则化,克服过度拟合问题,提高性能在图像分类方面的实验表明了这种方法的有效性。
- 通过过度参数化将神经网络嵌入半扁平极小点和鞍点
本文理论研究了过参数化情况下神经网络的训练误差,考虑了将网络嵌入更宽的网络中的三种方法,并讨论了更窄的网络的最小点是否会成为更宽网络的最小点或鞍点。我们的结果表明,具有平滑和 ReLU 激活的网络在嵌入点周围具有不同程度的平坦区域。我们还将 - MM基于风格迁移的图像合成作为深度学习中有效的正则化技术
本文探讨了深度学习在图像分析和分类方面的弱点,提出利用基于神经风格转换的数据增强方法以提高数据集的泛化能力,并通过应用于皮肤病分类案例验证了其潜力。
- 现代人工神经网络中的语言泛化和组合性
该研究回顾了当前深度学习语言处理网络的主要创新,讨论了一系列研究表明深度网络能够进行微妙的语法依赖性泛化,但也不依赖于系统化的组合规则,这一现象应该引起语言学家和认知科学家的兴趣。
- 更好的结论:左右 SCAN 并进
研究对比分析了两个数据集(SCAN 和 NACS)对循环编码器的细致测试,结果表明在 NACS 上表现良好的模型未必在 SCAN 上也表现良好,这为理解序列到序列模型的泛化特性提供了新视角。
- ShapeWorld - 一种新的多模态语言理解测试方法
介绍了一种新的框架,用于评估多模态深度学习模型的语言理解和泛化能力,该方法可控制详细的数据内容,在四个不同任务上应用于视觉问答模型,通过开源我们的框架,我们希望刺激多模态语言理解领域的进步。
- POWERPLAY: 持续搜索最简单却无法解决的问题以培养日益通用的问题解决器
本文介绍了一种自动发现并解决问题的新型算法框架 POWERPLAY,该框架借鉴了动物和人类的有趣行为方式,实现了基本创新原则的贪心但实用的应用,无需监督学习,并不断增加问题解决技能的技能库,从而获得更好的创造力。