- 潜在整合的最优运输及其在异质神经活动数据中的应用
提出了一种基于最优输运的异质数据整合框架,能够在复杂生物过程中提取共享模式,增强辨别力并降低信号无关的杂质,有效地对齐纵向数据并捕捉共享模式的动态,适用于少数受试者的实验。
- 结合实验和历史数据进行政策评估
本文研究了使用多个数据源进行政策评估的方法,特别是在一个包含两个实验群体的实验数据集,并补充了一个由单一对照群体生成的历史数据集的情景中。我们提出了一种新颖的数据集成方法,线性地整合基于实验数据和历史数据构建的基于政策值的估计器,通过优化权 - 利用大型语言模型进行实体匹配
实体匹配是数据集成中的关键任务,本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向,同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。
- 采用大型语言模型进行跨数据源生物医学概念链接
利用大型语言模型 PromptLink 实现生物医学概念链接,解决概念命名差异问题,从而在不同数据源之间进行集成分析,该方法通过两阶段提示实现链接,既充分利用了大型语言模型的先验知识,又提高了结果的可靠性。
- 德国旅游知识图谱
旅游是全球经济中最关键的行业之一。基于其异构和分散性的特点,知识图谱是其中一个最适用的使用案例。本文介绍了德国旅游知识图谱,整合了来自德国 16 个联邦州和其他各种来源的旅游相关数据,为各种应用提供了一个精选知识源。通过图形用户界面和应用程 - 成本高效学习的交互本体匹配
本研究通过引入适用于本体匹配的主动学习方法 DualLoop 解决最后一英里问题,其中包括可调节的启发式匹配器、适应高度不平衡数据的短期学习器和创建调整新启发式方法以探索潜在匹配的长期学习器。通过在三个不同规模和领域的数据集上评估 Dual - 适应性基于亲和力的 MRI 图像分割在资源有限环境下的泛化
通过基于关系的知识框架和轻量级模型,实现了医学图像分割领域中的多种数据源的集成,提高了模型的泛化能力和适应性,同时减少了推理时间和存储使用,成为实时医学图像分割的实用和高效的解决方案。
- 利用大型语言模型进行关系发现来消除实体匹配的歧义
通过预定义一组与任务相关的关系,我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”,以解决匹配中的模糊性,从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。
- 长期多模态多视图预测与缺失的统一模型
利用统一模型进行多模态多视角预测,解决长期的医疗记录中数据缺失的问题,并证明了方法的有效性和数据的重要性。
- ReMatch:基于 LLMs 的改进检索型模式匹配
本文介绍了一种名为 ReMatch 的新方法,使用检索增强的大型语言模型(LLMs)匹配架构,无需预定义映射、模型训练或访问源数据库的数据。实验结果表明,ReMatch 显著提高了匹配能力,并优于其他机器学习方法。
- CARTE:表格学习的预训练与迁移
预定深度学习模型、表格数据、数据集成、神经网络架构、CARTE 等是该论文的关键词,并且 CARTE 是可用于表格数据的大型预训练模型的一种神经网络架构。
- SportsMetrics: 融合文本和数值数据以理解 LLM 中的信息融合
大型语言模型在整合文本文档和数据库记录等各种数据类型进行高级分析方面具有重要潜力。然而,混合文本和数值数据面临着很大的挑战。本文介绍了围绕体育数据分析的四个新颖任务,用于评估大型语言模型的数值推理和信息融合能力。这些任务涉及提供详细的场上比 - FedRSU: 基于路边单位的场景流估计的联合学习
FedRSU 是一种创新的联邦学习框架,用于自监督场景流估计,它能够整合大量的 Roadside unit 数据,并在 ITS 中显著提高模型性能和联邦学习场景下的综合基准。
- TemporalAugmenter: 基于集成循环深度学习的信号分类方法
基于模型集成的新颖 TemporalAugmenter 方法用于扩充长期和短期依赖性的时态信息捕获,从而增强时态依赖抽取的模型,同时减少预处理和特征提取的工作量,使得建立在 TemporalAugmenter 方法上的模型的能耗减少,促进绿 - 精准医学中的分析与关注:统计学观点
本文探讨了统计分析在精准医学中的关键作用,着重讨论了个性化医疗如何通过解释复杂的多维数据集来实现,包括预测建模、机器学习算法和数据可视化技术。本文还研究了数据整合和解释方面的挑战,尤其是包括电子健康记录(EHR)和基因组数据在内的多种数据源 - 跨断面和长期多视角数据整合的深度学习流水线
该研究提出了一种使用统计和深度学习方法集成多个来源的横断面和纵向数据、识别相关变量并提供深入生物学见解的流程,并将其应用于炎症性肠病的多组学数据,发现了可区分炎症性肠病状态的微生物通路、代谢物和基因,为炎症性肠病的病因提供了信息。
- 低资源实体匹配问题中的战舰策略
通过使用先前训练的语言模型的深度学习方法,本研究提出了一种解决实体匹配问题的新的主动学习方法,该方法利用实体匹配的独特属性进行选择机制,将低资源实体匹配问题视为一种战舰游戏,通过感知潜在空间,并仔细规划下一个采样迭代来捕捉指示性样本。经过广 - mvlearnR 和 Shiny 应用于多视图学习
mvlearnR 是一个用于多源、多视角或多模态数据集成的软件包和 Shiny 应用程序,并提供了统计和机器学习方法以及图形工具,便于用户进行综合分析和深入了解复杂疾病机制。
- 自动本体匹配中的不确定性:经验实验的教训
本文从应用角度探讨了基于本体匹配的数据集成问题,通过实际数据和现有工具的支持进行实验,发现自动本体匹配过程中存在的错误和不确定性,探索了半监督方法在更广泛应用中的成熟性和不确定性管理方面的前景
- 多域改善医学图像分析的超出分布和数据有限情境
当前医学图像分析的机器学习方法主要集中在为特定任务开发定制模型,利用其目标域内的数据。最近,提出了基础模型,它结合了来自各种领域的数据,并展现出出色的泛化能力。本研究在此基础上引入了多领域医学图像的结合,包括不同的成像方式如 X 线、MRI