从网络化样本中学习

May, 2014

Learning from networked examples

Yuyi Wang, Jan Ramon, Zheng-Chu Guo

TL;DR针对机器学习算法默认独立采样的局限性，在网络化数据样本学习中，使用了有效的样本加权方案，提高了错误边界，从而使丢弃过多共享信息的方法不再是唯一选择。

Abstract

Many machine learning algorithms are based on the assumption that training examples are drawn independently. However, this assumption does not hold anymore when learning from a networked sample because two or mor

machine learning networked sample training examples sample error bounds sample weighting schemes

发现论文，激发创造

关于具有网络数据的 ERM 原则

研究网络数据在机器学习中的应用，通过一种通用的风险边界得到一个优化问题，使用带权重的 ERM 可以求解这个优化问题，再通过一种新的全多项式时间近似方案来在非凸情况下解决这个问题。

Nov, 2017

基于统计模型的主动学习

本文回顾了如何使用最优数据选择技术来优化一些类型的机器学习算法，包括前馈神经网络、高斯混合模型和局部加权回归，并探讨了此方法如何降低训练数据量，提高模型性能。

Mar, 1996

不可信来源中的健壮学习

该研究通过统计学习理论视角研究了机器学习中如何从分布式、众包等外部数据源中进行稳健学习，提出了一种通过自动抑制无关或损坏数据的过程，并通过实验证明其比鲁棒统计和分布式优化的替代方法具有更高的精度和准确性。

Jan, 2019

论神经网络所学习的信息：与记忆和泛化的联系

通过信息论分析深度学习及神经网络，研究在训练过程中神经网络获取的信息，提出了限制权值中标签噪声信息的学习算法，并提出了样本信息度量概念，探究了神经网络在非典型、模棱两可或属于代表性较弱群体的情况下的行为，导出了非平凡的泛化表现界限，并通过知识蒸馏研究，证明了数据和标签复杂度在泛化中的重要作用。该论文深入研究了神经网络的泛化机制，有益于更深层次地理解此领域的相关知识。

Jun, 2023

统计学习和估计的在线与分布式算法的基本极限

本文探讨了机器学习中的信息约束，包括内存、通信、数据部分读取等约束对算法性能的影响，并得出针对不同情形，在特定限制下，算法表现将不如无限制情形的结论。

Nov, 2013

区分基于规则和范例的一般化学习系统

本研究基于实验方法，探讨了分类学习系统的归纳偏差对样本和规则泛化之间的权衡，并发现标准神经网络模型存在特征偏见和样本驱动等问题，对机器学习研究的系统泛化、公平性和数据增广等产生了影响。

Oct, 2021

机器学习中的越界泛化

研究探讨了机器学习中的问题，特别是当模型在不同于训练数据的数据上进行测试时，模型很容易出现失败的现象，主要依靠发现数据的因果结构、找到可靠的特征并进行推广算法等方面展开探讨。

Mar, 2021

神经网络集成方法的比较

提出一种多方计算协议，旨在处理在具有实际数据时出现的不一致性，同时保护医疗数据的隐私和安全，其中采用了神经网络的三种方法进行了分析和比较。

Mar, 2023

从聚合观察中学习

本文提出了一个概率框架，将多实例学习扩展到多类分类和回归等其他问题，并引入一种新的一致性概念来表征估计器，证明了在温和的假设下具有良好的收敛性。实验证明，该方法在三种问题设置中具有有效性。

Apr, 2020

深度神经网络的采样权重

我们引入了一种概率分布和高效的采样算法来处理神经网络中的权重和偏差参数，通过玩具模型和实际数据集的实验，证明了我们构造的采样网络是普适逼近器，并且采样框架对于输入数据的缩放和旋转是不变的，这意味着许多流行的预处理技术不再需要。

Jun, 2023