- 梯度引导的假设:在稀缺和噪声数据情境下启用机器学习模型的统一解决方案
在本研究中,我们提出了一种架构无关的算法,梯度引导假设(GGH),旨在应对数据质量方面的挑战。GGH 通过分析假设的梯度作为数据中不同且可能相互矛盾的模式的代理来解决缺失和噪声数据问题,并通过机器学习训练中的额外步骤将梯度包含或排除在反向传 - KDDRC-Mixup:用于回归任务的对抗噪声数据的数据增强策略
我们研究了在存在噪声数据的回归任务中的鲁棒数据增强问题。我们提出了将 C-Mixup 和多轮鲁棒训练方法紧密结合的数据增强策略 RC-Mixup,以识别干净数据并显著提高回归性能。
- 动态系统中的偏微分方程自动发现
ARGOS-RAL 利用稀疏回归结合循环自适应 lasso 从有限先验知识中自动识别偏微分方程 (PDEs),其性能在各种噪声水平和样本量下得到了严格评估,展示了在处理噪声和非均匀分布的数据方面的稳健性。通过将统计方法、机器学习和动力系统理 - 基于数据驱动的输出 Error 设定下的不确定性量化
本文通过引入两个上界来解决使用离线输入 - 输出数据直接预测 LTI 系统输出的问题,同时考虑到噪声对预测精度的影响,通过数值模拟证明噪声水平的增加会线性降低上界,并指出使用去噪启发式方法不一定提高预测准确度或减小上界。
- ACL揭开模仿学习的面纱:探索数据虚假对大型语言模型的影响
通过使用合成指令数据重新训练 ChatGPT 和 GPT-4 等领先专有模型,许多最近的研究试图改进开源语言模型的模仿学习。然而,合成数据的固有特性本质上包含有噪声的数据,导致大量低质量数据存在错误响应和有缺陷的推理。本文探讨了噪声程度与其 - 三元组分矩阵分解:解析全局、局部和噪声成分
本文研究从噪声数据中提取共同和独特特征的问题,提出了一种名为 Triple Component Matrix Factorization (TCMF) 的算法,该算法具有分离三个组成部分的优势,并展示了在视频分割和异常检测领域的卓越特征提取 - MM通过深度参数估计增强多媒体理解网络的模块化系统
通过模块化和高效的系统设计,我们提出了一个解决多媒体理解任务中嘈杂数据困扰的方法 SyMPIE,该方法在多个数据集和任务上进行了验证,并取得了稳定的约 5%的相对准确率提升。
- 弱监督深度学习在胸部 CT 分类中的性能限制是什么?
通过分析弱监督学习在医学图像领域的限制以及约束条件对疾病分类性能的影响,本研究揭示了模型对噪声数据的容忍度、训练数据量的影响以及二元和多标签分类之间的性能差异。结果表明,模型可以在添加 10% 标签错误之前保持疾病分类的性能,随着训练数据量 - AAAIPARSAC: 并行样本一致性加速健壮的多模型拟合
我们提出了一种实时方法,用于从嘈杂数据中稳健地估计多个几何模型实例。
- 三滤波器优化:重新思考深度到法线转换中的不连续性判别
本研究介绍了一种名为 3F2N + 的新方法,它通过引入一个新的不连续性判别模块(DDM),结合深度曲率最小化和相关系数最大化以及条件随机场,将不连续性判别能力引入表面法线估计器。实验结果表明,3F2N + 在各种数据集上实现了优于其他基于 - 分析标签噪声下分类器的鲁棒性
该研究探讨了标签噪声分类器的稳健性,旨在提高模型对复杂实际场景中的噪声数据的抵抗能力,并通过整合对抗机器学习和重要性重新加权技术来解决标签噪声对实际应用的影响。
- 虚假数据对电化学中的机器学习模型的影响
选择适合处理噪声数据的机器学习模型以及建立叠加模型是否确实对原本对噪声敏感的弱模型提供鲁棒性。线性模型对噪声处理良好,但在预测准确性方面存在问题;基于树模型对噪声处理能力较差,但可以提供更高的预测准确性;叠加模型既具备高准确性又能有效处理噪 - 有噪声数据中的非负矩阵分解算法
本文介绍了两种算法,Shift-NMF 和 Nearly-NMF,可以处理输入数据的嘈杂性和负值,并且可以正确恢复非负信号,而无需对负数据进行截断,避免了引入正偏移。
- 在球面上的核插值分布式不确定性量化
该研究论文介绍了一种分布式插值方法,用于管理和量化由插值具有非可忽略的大小的嘈杂球形数据引发的不确定性,并展示了对具有挑战性计算环境中的嘈杂数据进行处理时,该方法在实际应用中的实用性和鲁棒性。
- 解开双下降之谜:通过学习特征空间的深入分析
通过对学习表征的特征空间进行全面分析,我们揭示了双下降现象是在用带有噪声数据训练的不完美模型中产生的,它首先通过拟合噪声数据进行学习,然后通过超参数化添加隐式正则化,从而具备了将信息与噪声分离的能力。我们推断双下降现象不应该在经过良好正则化 - 模型基强化学习的多时间步模型
模型驱动的强化学习中,通过使用多时间步目标训练一步预测模型来解决一步预测误差在轨迹增长时的累积问题,实验证明指数衰减权重能显著提高长期视野得分,尤其在嘈杂环境下,展示了该方法在实际应用中的潜力。
- 分割谐波损失:处理类别不平衡的多标签临床数据以适用于大规模语言模型进行医学编码
通过在真实噪声数据上评估 Large Language Models (LLMs) 在医学编码任务的性能以及引入新的分段谐波损失函数来解决医学数据极度类别不平衡的问题,我们的实验结果表明,在训练过程中使用该损失函数,LLMs 在噪声长尾数据 - 动态和非平稳环境中的基于核的函数学习
机器学习中一个核心主题是从稀疏和嘈杂的数据中进行函数估计。本文研究了内核岭回归,并推导了在非平稳分布下的收敛条件,同时解决了可能无限次发生的随机调适情况,包括重要的探索 - 开发问题。
- GPSINDy: 数据驱动的运动方程发现
从噪声数据中发现非线性动力系统模型是一个重要问题,本研究结合了高斯过程回归和 SINDy 方法,提出了一种简单且具有噪声数据下显示改进鲁棒性的方法,通过仿真和硬件数据验证,表明该方法在发现系统动态和预测未来轨迹方面性能优于 SINDy。
- 物理约束下从有限且噪声数据中稳健地学习开放式偏微分方程
通过 R-DISCOVER 框架,本研究提出了一种从有限且嘈杂数据中稳健地揭示开放式偏微分方程(PDE)的方法,该框架通过发现和嵌入两个交替更新过程进行操作,并通过符号表示和强化学习指导的混合 PDE 生成器高效地生成具有树结构的多样化开放