- ACL通过上下文数据增强来改进语法错误修正
提出一种基于上下文增强的合成数据构建方法,用于语法错误校正,在生成模型的基础上结合基于规则的替换,以增加原始数据的错误分布一致性,并提出一种基于重标记的数据清洗方法来减小合成数据中噪声标签的影响。实验证明,该增强方法在有限的合成数据下始终优 - 使用集成数据清理方法开发高效语料库
本研究旨在利用集成技术清洗医学数据集并开发语料库,数据清洗方法表明集成技术相对于单一过程具有最高准确率(94%),包括向量化、探索性数据分析和输入向量化数据。该研究的第二个目标是从数据集中提取答案,这对机器学习、数据清洗和医疗领域具有重要意 - 经过分值校准的阈值无关公平匹配
在数据清洗中特别是在实体匹配任务中,本文提出了一种生成匹配分数的方法,以减少不同阈值下的偏见,从而减少数据清洗领域中的偏见。
- 数据集增长
InfoGrowth 是一个高效的在线算法,用于数据清洗和选择,可以提高单模态和多模态任务的数据质量和效率,具有实用的可扩展性。
- 360 智脑技术报告
使用 3.4T 的标记数据进行预训练,通过数据清洗和组合策略,将 360Zhinao-7B 模型的上下文窗口扩展至 32K 和 360K,实现了与类似规模模型的竞争性表现。
- 梯度相似性数据评估
通过梯度相似性进行数据估值的方法在识别低质量数据方面表现出良好的效果,并能减少对专业知识和手动干预的需求。
- 评估机器学习分类算法和自然语言处理技术在抑郁症检测中的应用:实验案例研究
此研究评估了使用机器学习和自然语言处理技术来检测抑郁症的方法,针对数据清理、模型选择等方面进行了案例研究,并在具体实验中使用 Distress Analysis Interview Corpus - Wizard-of-Oz(DAIC-WO - 验证和探索大规模地理文集
本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库,使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量:(i) 独立语言识别系统的一致性,(i - 通过组合小语言模型提炼大型语言模型
我们提出了一种简单易行的方法,通过将大型语言模型(LLMs)与良性和小型语言模型(SLMs)集成,从未经筛选的数据的负面影响中净化 LLMs,以提高其性能并减轻版权侵权、数据污染和隐私侵犯等问题。经过综合实验证明,该方法能有效保持 LLMs - 从失败中学习:在将大型语言模型调优为代理时,整合负例
大语言模型在与环境进行交互时存在工具使用方面的优化限制,然而通过适当的数据清理和微调策略,大语言模型可以从失败中学习并显著提高性能。
- BClean:一个贝叶斯数据清洗系统
提出了一种名为 BClean 的贝叶斯清理系统,使用自动贝叶斯网络构建和用户交互,并通过贝叶斯推断将数据清理问题重新定义,展现出优于现有贝叶斯方法 2% 和其他数据清理方法 15% 的数据清理能力。
- 数据清洗与机器学习:一项系统性文献综述
这篇论文综述了机器学习与数据清洗之间的双向关系,总结了最新的数据清洗方法和机器学习在数据清洗方面的应用,并提供了未来的研究建议。
- EMNLPJina Embeddings:一个性能卓越的句子嵌入模型集合
Jina Embeddings 是一套高性能的句子嵌入模型,能够将各种文本输入转化为数值表示,从而捕捉文本的语义要义。本文详细介绍了 Jina Embeddings 的开发过程,包括高质量配对和三元组数据集的创建,强调数据清洗在数据准备中的 - DataAssist:一种机器学习方法用于数据清洗和准备
DataAssist 是一个自动化的数据准备和清洗平台,可通过 ML 方法增强数据集的质量,并提供一种管道用于探索性数据分析和数据清理,包括为用户选择的变量生成可视化,统一数据注释,建议异常值移除和预处理数据。
- 交叉验证独领风骚:一种统计学方法用于标签噪声估计
提出了 Repeated Cross-Validations for label noise estimation (ReCoV) 方法,在医学影像结果预测数据集中表现出比现有算法更好的噪声清理能力。
- KDD自适应梯度基础离群值去除的噪声标签学习
提出了一种新的自适应基于梯度的异常点去除方法 AGRA,通过比较批量样本的聚合梯度和单个样本梯度,动态决定是否剔除数据集中的异常点。在多个数据集上进行广泛评估,证明了 AGRA 的有效性,同时全面的结果分析支持了初步的假设:永久性的硬异常点 - Vault:一个全面的多语言数据集,用于推进代码理解和生成
The Vault 是一个开源的、大规模的代码文本数据集,具备 10 种流行编程语言的 4000 万个代码文本对,经过清理和处理,可用于训练不同类型的基于代码的大型语言模型,并同时为研究者和实践者提供了数据清理方法和脚本以改善他们的数据集。
- 使用 Pylogik 进行医学图像去识别、清洗和压缩
提出了一种名为 PyLogik 的 Python 库,用于清理和去识别超声图像中的 PHI 数据,并减小文件大小,以便于数据共享和机器学习应用。处理了 50 个心脏超声图像,结果显示平均 Dice 系数为 0.976,且数据大小平均约减小了 - RetClean:基于检索的数据清洗,采用基础模型和数据湖
ChatGPT 可通过为数据表中特定单元格提供纠错建议来协助数据清洗,但可能无法处理从未遇见的数据集或需要源解释的情况。为此,我们开发了检索方法来补充 ChatGPT 的能力,并使用用户提供的数据湖来推断正确值。此外,我们开发了一种定制的基 - 利用深度多元专家方法检测 TempoWiC 中的词义漂移
本文主要描述了 DMA 提交至 TempoWiC 任务的情况,其中取得了 77.05%的宏 F1 得分,获得了该任务的第一名。我们首先探讨了不同预训练语言模型的影响。然后,我们采用数据清洗,数据增强和对抗训练策略来增强模型的泛化能力和鲁棒性