- 缺失感知多分支自注意力编码器用于不规则纵向电子健康档案的 MUSE-Net
大数据时代使大量的临床数据变得容易获得,特别是以电子健康记录(EHRs)的形式,提供了发展数据驱动诊断工具以增强临床决策的前所未有的机会。然而,将 EHRs 应用于数据驱动建模面临着使时间间隔不规则的多变量时间序列、不完整问题和数据不平衡等 - 一个用于双模态情感分类的简单基于注意力机制
在本文中,我们提出了基于双模态深度学习结构和注意力机制的情感分类方法,使用文本和语音数据进行训练和测试,并报告了不同结构的详细细节和性能分析结果。研究结果表明,使用不同类型数据(文本和语音)训练的深度学习结构优于仅使用文本或语音训练的结构, - MM通过 MPI 并行计算系统进行矩阵计算的密度峰聚类算法
通过使用两种向量距离矩阵和反向领先节点发现策略,我们提出了一种忠实且并行的密度峰值聚类方法,该方法能够在聚类大规模欧几里得数据时显示出优越的准确性,并且能够聚类非欧几里得数据,例如在社区检测中。
- 为 BigBench 中的机器学习工作负载增加功能
在大数据和机器学习、深度学习以及人工智能算法得到越来越多支持的时代,急需标准化的应用基准来对这些新技术进行压力测试和评估。本文在基于标准化的 BigBench (TPCx-BB) 基准的基础上,通过引入三个新的工作负载和扩展机器学习算法的覆 - MALLM-GAN:用于合成表格数据的多智能体大型语言模型生成对抗网络
在大数据时代,访问丰富的数据来推动研究进展至关重要,然而在医疗领域,这种数据往往由于隐私问题或高成本而无法获得。生成合成数据可以解决这个问题,但现有模型通常需要大量数据进行训练,与我们解决数据稀缺的目标相矛盾。为了应对这一挑战,我们提出了一 - 智能和简化学习的新方法:Koopcon
在大数据时代,数据集的体量和复杂性给机器学习,特别是图像处理任务带来了重大挑战。本文介绍了一种基于自编码器的数据集压缩模型,支持库普曼算子理论,有效地将大规模数据集压缩成紧凑、信息丰富的表示。该模型受人脑预测编码机制的启发,采用一种新颖的编 - 大数据的规模有多大?
使用机器学习模型,大数据引入了一种新的预测能力。本文评估了 “大数据” 在典型材料科学机器学习问题中的含义,涉及数据量、数据质量和真实性以及基础设施问题。通过选定的示例,研究了模型在相似数据集上的泛化能力、如何从异构数据源收集高质量数据集、 - 大数据生态系统中提升数据质量的 AI 驱动框架:错误检测、修正和元数据集成
该研究论文提出了一套新的互联框架,旨在全面提升大数据质量,包括引入新的质量指标和加权评分系统,采用人工智能模型检测各种质量异常,以及通过预测建模纠正检测到的异常,并着重讨论了在大数据生态系统中提高元数据质量的创新框架。
- 区块链数据分析的机器学习:进展与机遇
区块链技术及其与大数据、机器学习和加密货币相关的数据分析的综合资源论文。
- 利用命令行语言模型在规模化环境中进行入侵检测
我们介绍了一种基于大规模预训练的入侵检测系统,通过在数千万条命令行上训练大型语言模型来实现基于人工智能的入侵检测,并在 3000 万个训练样本和 1000 万个测试样本上验证了我们解决方案的有效性。
- 可压缩且可搜索:学习图像压缩的 AI 原生多模态检索系统
我们提出了一个融合 AI-native 多模式搜索与神经图像压缩的框架,通过使用简单的适配器来提高多模式数据的压缩效率和搜索准确性,实验证明了我们的方法在数字内容、多媒体数据和大数据时代具有可伸缩性和高效性。
- FastSpell:LangId 魔法拼写
本文介绍了 FastSpell,这是一种语言识别工具,它结合了 fastText 和 Hunspell,并提供了细化的第二意见,以便在决定将哪种语言分配给一段文本之前使用。我们描述了 FastSpell 算法的工作原理和配置方法,并在开发 - 基于异质对比学习的基础模型及其扩展
在大数据和人工智能时代,对于基础模型采用对比自监督学习来建模大规模异构数据是一种新兴的范式。本文针对基础模型的异构对比学习进行了系统的调查,评估当前的状态并突出了对比学习的挑战和未来趋势。主要讨论了最新的对比学习方法如何处理视角异质性以及如 - 公共突发事件下的信息传播预测:一项调查
在大数据时代,信息蔓延的预测在大规模信息、专家经验和高精度模型的帮助下带来了巨大机遇。然而,不同学科的专业知识参与导致信息蔓延预测主要专注于特定应用领域(如地震、洪水、传染病)。缺乏统一的预测框架为不同应用领域的交叉预测方法的分类带来了挑战 - 高效的计算与内存使用策略的强韧预测分析
在当前的数据密集时代,大数据已成为人工智能(AI)的重要资产,为开发基于数据驱动模型和揭示各个未知领域提供基础。本研究通过应用 Robust Principal Component Analysis(RPCA)进行噪声降低和异常值剔除,以及 - 通过 Transformer 编码的 HTTP 响应头指纹识别 Web 服务器
利用最先进的深度学习、大数据和自然语言处理技术探索提高对易受攻击的 Web 服务器版本检测的方法,通过发送各种模糊和非标准的 HTTP 请求到 477 万个域名并捕获 HTTP 响应状态行,通过使用 BPE 标记器和 RoBERTa 编码器 - 基于电子健康记录的关节疾病预测的自动化多任务学习
在大数据和数字医疗领域,电子健康记录(EHR)已成为丰富信息的来源,具有改善患者护理和医学研究的潜力。近年来,机器学习模型不断增多,用于分析 EHR 数据以预测患者未来的健康状况。其中,一些研究主张采用多任务学习(MTL)来共同预测多种目标 - 基于深度编程学习风格捕捉的个性化编程指导
基于其让学习者更好地掌握编程技能和个性化编程指导的目标,本文提出了一种名为 PERS 的新模型,通过模拟学习者复杂的编程行为,并结合 Felder-Silverman 学习风格模型,实现对编程行为的全面描述和个性化编程指导的有效性验证。
- 数字孪生移动性编制:一种时空图学习方法
基于大数据和数字孪生技术构建的数字孪生移动性建模框架在交通相关应用中展现了良好的性能和有效性。
- 工业 4.0 中大数据探索的语义方法
基于语义的可视化查询系统在第四工业革命(工业 4.0)中的应用,该系统利用自定义数字化表示的机器和语义描述来实现对数据的探索和可视化,提供更高层次的抽象查询、基于数据格式和性质的定制图形可视化结果以及下载丰富数据以进行进一步的分析。