- 物理约束下从有限且噪声数据中稳健地学习开放式偏微分方程
通过 R-DISCOVER 框架,本研究提出了一种从有限且嘈杂数据中稳健地揭示开放式偏微分方程(PDE)的方法,该框架通过发现和嵌入两个交替更新过程进行操作,并通过符号表示和强化学习指导的混合 PDE 生成器高效地生成具有树结构的多样化开放 - 对抗性协同过滤免费
在这篇论文中,我们提出了一种名为 SharpCF 的简单而有效的方法,该方法在基本优化器上进行敌对训练的同时并不增加额外的计算成本。通过分析发现,敌对训练实际上是寻求模型参数位于最优模型参数周围,具有统一低损失值的领域,从而实现更好的普适性 - 从噪声数据中学习 MDL 逻辑程序
利用最小描述长度程序从噪声数据中学习,包括递归程序,在多个领域(包括药物设计、游戏玩耍和程序合成)的实验表明,我们的方法在预测准确性上可以超出现有方法并适应适度的噪声量。
- 从噪声数据计算矩阵剖面
通过实验测量了从原始时间序列生成的 matrix profile 与加入不同噪声参数设置后的数据生成的 matrix profile 之间的相似性,结果显示 matrix profile 生成在少量噪声存在的情况下仍然具有弹性,但是随着噪声 - 使用铰链损失函数训练浅层 ReLU 网络的噪声数据:过拟合何时发生且是否良性?
本文探讨了使用梯度下降和 hinge loss 在嘈杂数据上训练的两层 ReLU 网络的良性过拟合问题,研究了线性可分数据,给出了干净数据边距的条件,得到了良性过拟合,过拟合和非过拟合三种不同的情况,并揭示了神经元训练过程中的两个不同阶段。
- 使用自适应最优输运生成可靠伪标签的稳健短文本聚类表示学习
本文提出了一种鲁棒的短文本聚类模型 (RSTC),通过假标签生成模块和鲁棒的表示学习模块,提高抗噪声和不平衡数据的鲁棒性,实验证明在 8 个短文本聚类数据集上优于现有模型。
- 用最小的训练子集重新标记以改变预测结果
该研究利用扩展影响函数提出了一种有效的识别和重新标记最小训练样本以翻转给定预测的过程,评估模型的韧性,并提供有关训练集内偏差的见解。
- 打开开放集的力量:开放集嘈杂标签学习的新视角
本文提出了一种新的 CECL 对比学习方法,通过将一些 open-set 样本合并入 closed-set 类以提高准确率,同时将其他 open-set 样本作为界限以提高代表性,来处理混合的 label 噪音,取得了优于现有方法的实验效果 - 噪声数据的序贯学习:数据同化遇上 Echo-State 网络
本文探讨了在嘈杂数据下训练循环神经网络的问题,并提出了使用卡尔曼滤波器的序贯训练算法来优化基于回声状态网络的动态预测器,该方法在两个混沌动力系统的合成数据集和实时交通数据集上表现优秀。
- CVPRBiCro: 双向交叉模态相似性一致性纠正多模态数据的噪声对应关系
该研究提出了一种名为 BiCro 的框架,可提高交叉模态匹配模型的噪声鲁棒性,通过估计噪声数据对应度的软标签来训练匹配模型。实验结果表明,该方法明显提高了各种匹配模型的抗噪声能力,并领先于同类研究成果。
- CVPR带有噪声标签的双对比学习
本文提出了 TCL 模型,通过 Gaussian mixture model 等技术处理嘈杂标注数据,采用 mixup 和 contrastive learning 等方式学习鲁棒性特征表示和分类,实验结果显示 TCL 在多个数据集上具有优 - 数据中心机器学习的重新标记方法
本文介绍了一种简单的方法,通过使用模型的预测结果,找到并重新标记噪声数据,以解决部分手动标记数据质量不高的问题,并在多项深度学习任务中取得 90 分以上的成绩。实验结果和人类评价结果验证了该方法的有效性。
- 用变分自编码器生成符号表达式
本文利用变分自编码器提出了一种用于生成符号表达式的深度学习框架,在嘈杂的数据条件下优于传统符号回归的准确率,并归纳了各类数据集及其恢复率相关知识。
- TAOTF: 一种在深度神经网络中使用的两阶段近似正交训练框架
本文提出了一种新的两阶段近似正交训练框架(TAOTF),通过在深度神经网络模型中应用软正交约束来解决噪声数据情况下模型的鲁棒性问题,并在自然图像和医学图像数据集上进行评估表明,我们的方法实现了比现有方法更稳定和优越的性能。
- 去噪多相似度公式:鲁棒性度量学习的自适应计划驱动方法
本文提出了基于自适应采样的均衡自适应度量学习(BSPML)算法,该算法采用去噪多相似度计算,并将噪声样本作为极其困难的样本,并根据样本权重自适应删除样本以提高模型的稳健性和泛化能力。
- 泛化乘积专家模型在嘈杂环境下学习多模态表征
本文提出了一种通过专家的广义乘积技术,在嘈杂环境中进行多模态表征学习的新方法,该方法通过为每种模态训练独立的网络来评估信息的可信度,随后动态地变化每种模态的贡献,进行联合分布的估计,在两个不同领域的测试中均获得了最新性能。
- NIPS通过有效主动学习和人在环节中提高电话会话中的命名实体识别
本文介绍了一种采用人类辅助学习的主动学习框架,以识别更有可能包含注释错误的数据样本进行重新注释,从而显著提高特定实体类型的 F1 分数。该方法只需对整个数据集的约 6% 的训练实例进行重新注释即可取得良好效果。
- EMNLP探索前缀调整在嘈杂数据中的稳健性:以金融情感分析为例的案例研究
本研究通过实验证明,相较于 fine-tuning 方法,prefix tuning 在面对嘈杂数据时更脆弱,会导致性能下降,特别是在噪声水平增加的数据集中,此外,prefix tuning 在许多污染方法中的 F1 得分方差比 fine- - 预训练的转换器并不总是能提高健壮性
对 10 种模型进行对比研究,发现在加入噪声数据的情况下,预训练 Transformer 模型比传统模型提供了更少的鲁棒性,在使用对抗过滤方法进行扩展后,虽然增加了泛化性,但在面对噪声数据时依然无法提供足够的鲁棒性。
- 自动语音识别端到端神经模型的鲁棒性分析
本文研究了预训练神经模型在自动语音识别中的鲁棒性,并对 wav2vec2,HuBERT 和 DistilHuBERT 进行了鲁棒性分析,发现它们在 LibriSpeech 和 TIMIT 数据集上对噪声的鲁棒性不同,同时进行了层次分析以预测