- GIST:贪婪独立集合阈值用于多样数据摘要
我们提出了一种新颖的子集选择任务,称为最小距离多样化数据汇总(MDDS),它在机器学习中有广泛的应用,例如数据采样和特征选择。我们介绍了 GIST 算法,它通过将一系列最大独立集问题近似为双准则贪婪算法来实现 MDDS 的 2/3 近似保证 - AAAI缩放和遮罩:图像和视频质量评估的新方法
本研究提出了一种名为 SAMA(缩放和遮蔽)的数据采样方法,通过将数据缩放成金字塔形状并使用遮蔽策略将其转换为规则的数据维度,从而在保持多尺度特征的同时,降低模型复杂度,并在图像和视频质量评估中取得了显著的性能提升。
- 通过高效的非参数替代品实现深度学习的自适应采样
通过使用非参数核回归进行采样,我们提出了一种新颖的采样分布,它能够在神经网络训练过程中学习到有效的重要性评分。我们的采样算法在墙钟时间和准确性上优于基准算法。
- DeepSpeed 数据效率:通过高效的数据采样和路由改进深度学习模型质量和训练效率
通过深度学习模型训练数据的更加高效使用,特别是针对昂贵的预训练模型,可以实现对数据采样和数据路由的有效提高,以提高模型质量和减少训练成本。
- 使用自组 Internet of Things 技术检测智能建筑中的异常
本文探讨了检测异常的各种机制,介绍了建立机器学习模型时需要考虑的关键因素,并探讨了使用多个自建物联网设备收集数据时如何有效地发现点、上下文和组合异常。此外,还讨论了处理数据采样率不同的传感器设备的挑战和潜在解决方案,以及基于环境条件提取子数 - KDD协作智能编排:基于不一致融合的半监督学习和主动学习
该研究提出了一种名为 IDEAL 的算法,采用不一致性为基础的虚拟对抗积极学习方法来探索半监督学习和积极学习的潜在优势,通过数据采样和增强策略来评估未标记样本的不一致性并取得了良好的实验效果。
- MM通过量子动力学进行多流形学习
利用图嵌入的量子动力学模拟算法计算采样流形上的测地线,并揭示了数据采样和量子化之间的有趣关系。
- 自适应均衡学习的半监督语义分割
本文提出了一种名为自适应均衡学习(AEL)的半监督语义分割新框架,旨在应对 Cityscapes 数据集中某些特定类别性能较差(即长尾标签分布),通过自信度相应动态调整训练,包括数据增广、数据采样等策略,实验证明其优于同类方法,并在多种数据 - EMNLP利用外部数据提高语音抄本的标点恢复能力
本文研究了针对嘈杂文本(如电话对话场景)的标点恢复问题,提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据,并提出了一种基于 BERT 模型的两阶段微调方法,大量实验表明该方法的 F1 得分提高了 - 提高所有尺度全景分割
本研究提出使用基于作物的训练策略进行图像分割,解决了 GPU 内存消耗问题,同时通过引入新的注重剪裁平衡的边界框回归损失和数据采样增强策略以改善多尺度下的泛化,将该方法应用于 MVD、Indian Driving 和 Cityscapes - 克服基于 Patch 学习的限制,用于识别全扫描切片图像中的癌症
本文讨论如何将深度学习用于对大型 WSI 图像进行癌症检测, 比较分析基于图像块或幻灯片的分类与需要在整个幻灯片上准确定位或分割癌症的方法之间的差异,并提出一种负数据采样策略,可显着降低假阳性率,并在肿瘤范围的错误率上取得 15% 的减少。
- AAAI元学习的少样本单类别分类
本研究提出了一种针对 few-shot one-class classification 问题的元学习算法,通过特定的采样策略在只有少量样本的情况下实现异常检测,并在实验中取得了良好的表现。
- 通过空间 k 折交叉验证估计空间模型的预测性能
本文研究机器学习中的空间自相关问题,提出了基于空间 k 折交叉验证的方法,并通过三个真实开放数据集的实验验证了该方法的有效性和应用性。
- 领域无关问答数据扩充及采样技术探究
研究提出了一个不依赖于特定领域的问答模型,并探讨了大型预训练语言模型、各种数据采样策略以及通过背景翻译生成的查询和上下文释义的相对优点。我们发现简单的负采样技术特别有效,即使它通常用于包括无法回答的问题(如 SQuAD 2.0)的数据集。当 - 强化学习高效增强经验回放生成
使用改进的生成对抗网络 (EGAN) 作为深度强化学习代理初始化器,加速深度强化学习在实际系统中的学习速率,特别适用于数据采样稀疏和缓慢的实时系统。
- 基于代价敏感学习的深度特征表示从非平衡数据中学习
该研究提出了一种基于成本敏感深度神经网络的方法,可以在不改变原始数据分布的情况下解决类别不均衡的问题,并在六个主要图像分类数据集上进行了实验证明其明显优于现有方法。