- 建立灵活、可扩展和机器学习准备的多模式肿瘤数据集
该论文提出了一种名为 MINDS 的多模态医学数据集成系统,通过整合来自多个公共数据源的异构数据,建立一个灵活、可扩展且具有成本效益的元数据框架,以实现大规模多模态机器学习模型的开发和患者中心架构的构建。MINDS 旨在通过协调多模态数据, - 综合三维矿产前景建模的多模态学习框架与联合学习的结构 - 流体关系
本研究提出了一种新颖的多模态融合模型,用于三维矿产前景绘图,通过深度网络结构有效地整合结构和流体信息。利用卷积神经网络和多层感知机,该模型采用典型相关分析对多模态特征进行对齐和融合。在交界金矿床数据集上进行严格评估,证明了该模型在区分含矿实 - 众筹安全经理:基于数据驱动的群体事件计划和控制的主动决策支持
本文介绍了一种新颖的技术和方法,旨在增强人群管理的规划和运营阶段。该方法包括创新的数据收集技术、数据整合和使用三维数字孪生进行可视化,以及将人工智能工具用于风险识别。该研究引入了 Bowtie 模型,这是一个综合性框架,旨在评估和预测风险水 - 融合观察、偏差和随机数据源的近似反事实界限
通过数据集成、反事实计算和因果推断方法,我们的研究对于解决具有选择偏差的数据集以及多个数据集之间的整合问题提出了有效的解决方案。
- 数据清洗流程初探
通过介绍技术术语和常用方法,综述了数据集成和数据清洗流程中的四个阶段,探讨了在现有的结构化和非结构化数据库中进行预测分析或统计分析所涉及的统计和方法学问题。
- 基于条件不变性的表示学习,解构细胞异质性
本文提出了一种新颖的方法,利用领域变化来学习表现出有条件对不想要的多变性或干扰的不变表示。
- 使用 ChatGPT 进行列类型注释
探索使用 ChatGPT 实现列类型注释,通过零或少量示范,ChatGPT 利用指令和两步注释管道的方法可以实现零样本和一次样本的 F1 分数超过 85%,达到与 RoBERTa 模型类似的精度,而后者需要 300 个示例。
- AdapterEM: 使用 Adapter-tuning 的预训练语言模型适应通用实体匹配
本研究提出一种新的参数高效的模型微调方法(Adapters),并使用这种方法在实体匹配中获得了与使用全模型微调相当或更优的结果。Adapters 方法不仅参数较少,而且可以捕捉 Token 级别的语言表示,并利用预训练 Adapters 实 - 基于协调数据孤岛的联邦学习
本文提出了一个面向端到端联合机器学习和数据集成的体系结构愿景,为数据管理信息系统和机器学习交叉研究带来重要启示,以解决不同站点之间存在的数据集成和数据格式一致性问题。
- 拼贴式学习:跨多样生物医学数据源集成分析范式
介绍了一种名为 “拼合学习”(Patchwork learning,PL) 的新兴范式,通过整合来自不同数据模式的数据提供一个综合的方法来解决医疗保健中的数据隐私、异构数据来源以及无法完全利用多个数据模式的问题。PL 允许同时利用互补的数据 - IJCAI为印度农村滞后地区的贫困估计和生计能力学习和推理多方面和长期数据
本文旨在研究 1990-2022 年间印度农村地区的贫困情况,使用生活质量和生计指标将地区分为 “先进”、“赶超”、“落后” 和 “滞后”,整合各种数据来源分析贫困情况,尤其针对性地关注弱势人群以减少不平等现象。
- 疾病过重:联邦艾滋病服务数据能否提高联邦艾滋病监测工作?
该研究通过整合 Ryan White、Social Security Disability Insurance、Medicare、Children Health Insurance Programs 和 Medicaid 数据的方法,利用监 - CLCLSA: 交叉组学链接嵌入,基于对比学习和自注意力的多组学一体化方法,可处理不完整的多组学数据
本文提出了一种基于深度学习的多组学(multi-omics)数据集成方法 CLCLSA,利用跨组学自动编码器学习生物数据的特征表示,采用多组学对比学习和自关注机制实现数据集成,通过在四个数据集上的实验证明其在应用不完整数据进行多组学分类上具 - 增强语言模型数据整合的学习
本篇论文研究了大型语言模型的局限性,提出了使用外部数据访问技术扩展语言模型的解决方法,并将其与数据集成的研究进行了比较,探讨了研究路径的启示。
- 评估基于机器学习的帕金森病生物标志物发现的可重复性
研究使用 GWAS 数据分析 PD 的潜在生物标志物并探索多种数据整合策略,发现使用不同数据集或整合策略所发现的标记物存在一定差异性,但鉴定了至少两次的 50 个 SNP 可能是新的 PD 生物标志物,这些结果为未来的研究开辟了新的潜在途径 - 具有上下文丰富处理的分析引擎:迈向高效的下一代分析
提出了一个与组件共同优化的分析引擎,采用在线数据集成和多个真相来源以解决数据清洗和复杂分析问题。
- 从观测、偏见和随机数据学习界定反事实推断
本文介绍一种方法,通过数据整合和建立结构性因果模型,在不同条件下解决由选择偏差引起的局部统计问题,并针对数据集的部分可识别性问题提出了一种逼近计算方法。通过系统的实验验证和实例研究,证明了这种方法的可行性和准确性,并揭示了数据整合对于信息界 - 基于流行度的数据集成
iTelos methodology aims to minimize data preprocessing costs and increase backward compatibility and future sharing by t - 基于查询的知识图谱工业分析与本体重塑
该研究提出了一个本体重塑方法,将本体转化为更好地反映底层数据并帮助构建更好的知识图谱的知识图谱模式,从而解决工业分析中的低质量知识图谱可能带来的问题,由此提高了 SPARQL 查询的训练效率和知识图谱的可扩展性。
- 药品匹配与异常批准号修正综合系统
本文介绍了一个药品匹配及数据整合技术,包括一个基于朴素贝叶斯分类器的系统,可实现 98.3% 药品匹配精度、99.2% 的精度和 97.5% 的召回率。