- AutoPureData: 网络数据的自动过滤用于 LLM 微调
通过收集和过滤来自网络的数据,利用现有可信的人工智能模型,实现对大型语言模型进行自动训练并提高数据纯净度。
- CVPR数据筛选的缩放定律 —— 数据审查不能忽视计算特性
通过引入神经缩放定律来解决数据筛选中的质量 - 数量权衡问题,该定律考虑了网络数据的异质性,为各种质量子集的效用进行特征化,并在多个数据集合的组合中估计模型性能,为数据筛选在不同计算预算下实现最佳性能提供了可能。
- 数据净化的群体利益实例选择
通过使用一种名为 GRIP 的方法,我们可以在合成和真实世界的数据集上改善标签噪声问题,并且该方法能够集成噪声鲁棒和噪声清理方法的优势,显著减轻由噪声标签引起的性能下降。
- EXGC:在图压缩方面实现高效和可解释性的桥梁
在本研究中,我们提出了一种高效且可解释的图压缩方法 EXGC,它通过采用 Mean-Field 变分逼近和梯度信息瓶颈目标来解决当前范式存在的效率和冗余性问题,在增加可解释性的同时显著提升了效率。我们在八个数据集上进行了全面评估,证明了 E - ICLR学习无行动行动
通过从无动作演示中推断潜在动作,我们介绍了一种名为 LAPO 的方法,它可以有效地预训练深度强化学习模型,并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。
- 基于有效评估模型提取的大规模高质量中文网络文本
我们提出了 EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText,其中包含 1.42 TB 的文本,并为每 - 使用网络数据,仅限于网络数据超越精选语料库的 Falcon LLM 的 RefinedWeb 数据集
本文表明,即使仅使用经过过滤和去重的网络数据,也可以训练出性能良好的大型语言模型,其训练数据量可以达到万亿级别,不需要过多地依赖于高质量的非网络数据的训练数据集。
- 基于困惑度的跨语言异构 Web 数据成人和有害内容检测方法
本文探讨检测多语言异构 Web 数据中成人和有害内容的不同方法,利用 perplexity 方法训练文本数据分类器可以使具有相似特征的文档聚合成不同的组群,从而实现更精确的分类。
- ECCV行动识别中的减轻表征偏见:算法与基准
本文研究基于算法和数据集两个角度的方法,提出 Spatial-aware Multi-Aspect Debiasing(SMAD)算法和 OmniDebias 数据集平衡方法,以应对目前现有数据集偏差问题,从而实现更好的物体检测和场景识别效 - BLIP: 为实现统一的视觉语言理解与生成,引入语言 - 图像引导预训练
本文提出了 BLIP 作为新的 VLP 框架,通过引入 captioner 生成合成字幕,并使用 filter 删除噪音数据,能灵活地传输视觉语言理解和生成任务,获得了在一系列视觉语言任务中最先进的结果,同时在零样本任务中也表现出极强的泛化 - 全源网络监督学习用于视频识别
OmniSource 是一个使用多种数据源和格式进行联合训练的框架,能够在没有人类标记的情况下从网上抓取 3.5M 的图片和 800K 分钟的视频,提高了在视频识别领域的表现。
- CVPR使用自组织记忆模块学习网络数据
本文提出了一种新颖的方法,通过多实例学习框架将同一类别的 ROIs (即图像及其区域提议) 分组,并基于其最近集群的代表性 / 差异性分数分配不同的权重来处理噪声问题,包括标签噪声和背景噪声,并将记忆模块与分类模块自然集成在一起,取得了令人 - 狮子有多大?诱导定量属性分布
本文提出一种无监督的从大量网页数据中收集数量信息的方法,并将其用于创建一个由与物体、形容词和动词相关的物理量分布组成的新的大型资源,即 DoQ。与该领域的最新研究不同的是,DoQ 重点关注绝对的数量比较,而不仅仅是相对比较,例如 “狮子比狼 - 从网络数据中学习:无监督目标定位的益处
本文研究了利用易获取的网络数据学习模型来辅助有标签数据集的细粒度图像分类。通过对 web 数据的处理包括对象定位和选择方法,本研究在降低数据分布差异的同时,优化了 CNNs 的训练,取得了良好的表现。
- 使用句向量进行简单的无监督关键短语抽取
本文提出了一种新颖的无监督方法,即 EmbedRank,通过使用句子嵌入从单个文档中提取关键短语,进而在标准数据集上实现了比基于图的现有系统更高的 F-score,适用于实时处理大量 Web 数据,并通过引入基于嵌入的最大边际相关性来明确地 - WebVision 数据库:从网络数据中进行视觉学习和理解
本研究基于收集自网络的大规模嘈杂数据对学习视觉识别模型进行了探究。我们构建了一个名为 WebVision 的新数据库,其中包含了超过 240 万张与 ILSVRC 2012 基准数据集的 1,000 个语义概念相关的查询生成的网络图像,并收 - LSH 集合:互联网规模域名搜索
本研究主要解决域搜索问题,提出了适用于搜索开放数据和网络数据的 Jaccard 集合包含度量标准及其索引结构 Locality Sensitive Hashing Ensemble。通过实验验证,该索引结构在大规模数据情况下具有优异的查询准 - 用户生成网络话语中的论证挖掘
这篇研究探讨了基于计算语言学的辩论挖掘的方法,通过适应实践数据中的辩论现象和创建一个新的标准语料库以及使用几种机器学习方法来识别辩论组件,证明了在用户生成的网络话语中进行辩论挖掘是可行的但具有挑战性的任务。
- ECCV噪声数据对精细识别的非合理有效性
利用简单通用的识别方法和网络上的免费嘈杂数据,成功规模扩展到 10,000 多个类别,不需要手动收集标签,取得超过现有各领域最佳记录的 92.3%、85.4%、93.4% 和 80.8% 的 top-1 准确率
- 卷积网络的网络监督学习
本文提出了一种使用大量网络数据来学习 CNN 的方法。具体地,我们利用了课程学习的思想,提出了一种 CNN 训练的两步方法,表现优异且鲁棒性强。我们使用这种方法在 VOC 2007 上实现了最佳性能,并在其中演示了网络监督学习的强大功能。