- SeqMate: 一种用于自动化 RNA 测序的新型大型语言模型管道
SeqMate 是一个用户友好的工具,利用大语言模型(LLM)自动化数据准备和分析,同时利用生成型人工智能的能力,对上调 / 下调 / 用户提示的基因进行分析并生成包含来自 PubMed、PDB 和 Uniprot 等已知仓库的引用的书面报 - 启用低资源语言的 ASR:一个全面的数据集创建方法
本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合 ASR 训练的长度,简化了资源稀缺语言中 ASR 系统的数据准备工 - 基于毒化的任意目标标签带正触发器的后门攻击
通过利用纯净数据集训练的网络作为触发器生成器,该研究提出了一种新的触发器分类方法并开发了一种多标签和多负载的基于毒化的反向门攻击(PPT),该方法可以在不牺牲准确率的情况下在各种数据集上实现高攻击成功率。
- 揭示蛋白质相互作用基准中的数据泄漏
分析了蛋白质相互作用数据集中常见的数据泄漏问题并提出了构建基于蛋白质相互作用界面的结构相似性的数据集划分方法。
- AI 竞赛与基准测试:数据集开发
发展机器学习数据集的方法论和实践经验,涵盖数据准备、集合、质量评估等方面。
- 企业版预训练语言模型 Fine Tuning 指南与推荐
使用专有文件和代码从企业存储库中细调 LLMa LLMs,以评估响应质量,同时提供细调 LLM 的实用指导和建议。
- 生物声学的小波散射变换:Watkins 海洋哺乳动物声音数据库的应用
海洋哺乳动物通信是一个复杂的领域,本研究关注 Watkins 海洋哺乳动物声音数据库的数据准备和预处理方法,提出了基于 Wavelet Scattering Transform(WST)的新方法,并使用改进后的深度架构,在准确率上超过现有的 - 自动驾驶的视觉基础模型铸造:挑战、方法和机遇
自动驾驶中用于构建视觉基础模型(VFMs)的关键技术包括数据准备、预训练策略和下游任务适应等方面,同时介绍了 NeRF、扩散模型、3D 高斯喷洒和世界模型等关键进展,并提出了未来研究的全面路线图。
- 台风:泰国大型语言模型
泰国的 Typhoon 超大语言模型是为泰语开发的,本技术报告介绍了开发泰语 LLMs 的挑战和见解,包括数据准备、预训练、指令调整和评估。
- 基于深度学习的情感分类:一个比较调查
深度学习方法在情感分析问题的解决中起到了关键作用,而这篇论文通过对超过 100 种基于深度学习的情感分类方法在 21 个公开数据集上的比较,将性能影响因素分为三类,并量化地解释了它们对研究中方法的影响。
- SOTASTREAM: 机器翻译训练的流式方法
许多机器翻译工具包利用数据准备步骤将原始数据转换为可以直接由训练器使用的张量格式。我们提出了一种替代方法,将数据的生成与使用分离,通过生成原始训练数据的无限排列流,并通过一组可自定义的操作符进行实时修改,从而提高训练效率、灵活性和模型的准确 - 自动表格:无需使用示例合成多步转换以在关系化表格中进行
Auto-Tables 系统使用多步转换(使用 Python 或其他语言)自动合成数据流水线,将非关系型表转化为标准关系形式,以满足下游分析的需求,无需用户手动编写转换程序。
- ACL检索式变压器用于表格增强
本文提出了一种基于自学习的检索增强型 Transformer 模型,其用于自动数据整理以减轻数据分析师的工作量,实现适用于动态数据视图的表格数据的结构化与数据补全,数据的预处理是实现分析或构建机器学习模型时最昂贵和耗时的步骤之一。
- MLHOps: 物联网医疗运营中的机器学习
本文介绍机器学习在医疗保健领域中部署和维护的可靠、高效、可用和道德化的过程,包括基础概念、数据准备、数据工程和工具等,在从策划到落地实现全过程提供指导。
- 预处理训练数据提高卷积神经网络基于景观语义分割的准确性和泛化能力
本文利用不同的数据预处理方法,包括 CNN 培训、语义分割和数据增强等方法,对昆士兰州的湿热热带和阿瑟顿高原进行了土地利用覆盖特征的分类,并发现使用数据增强和缩放是创建可用于不同日期和传感器图像的通用模型的关键。
- ChatPipe:通过优化人 - ChatGPT 交互进行数据准备程序协调
本文介绍了 ChatPipe,一个用于协调用户与 ChatGPT 间无缝交互的系统,用以快速编排高质量数据准备程序,用户可方便地回滚到以前的版本并进行更有效的实验和测试。
- 深度学习预测
本文提出了一种基于深度学习的时间序列预测方法,并在两个数据集上进行了评估。该方法包括数据准备、模型训练和评估等步骤,并进行可视化检查。实验结果表明,如果数据集中的时间序列重复出现固定模式,则可以使用单个时间序列来训练深度学习网络。然而,对于 - ECCV用于高分辨率、高吞吐率 DNN 训练的加速器友好型无损图像格式
介绍一个定制化的 L3 图像格式,最大限度地减少 CPU 介入,提高 DNN 训练过程中的数据准备和整体吞吐量
- 利用临床级性能准备数据,以用于病理人工智能
该研究通过回顾 PubMed 数据库中 2017 年 1 月至 2022 年 2 月的研究,并进行 118 项研究的深入分析,总结出了数字病理学是临床级 PAI 的基础,数据标准化和基于全体切片图像的弱监督学习技术是克服临床效果不可复现的有 - MMJester 数据集的聚类分析:评述
对 Jester 数据集进行聚类分析时,需要先进行数据准备,包括用适当的数值填充缺失的评分值,然后使用无监督机器学习范式进行聚类分析。本研究验证并纠正了对 Jester 笑话数据集进行的聚类分析的最新成果,并提出了未来的研究方向。