通过构建 PPIRef 数据集和使用 PPIformer 模型,本研究发现可以提高蛋白质 - 蛋白质相互作用的突变并表明其在仿真药物研究和疗法改进中的潜力。
Oct, 2023
通过提取非冗余的匹配数据进行无偏机器学习,开发了能够学习和预测蛋白质编码基因的混沌游戏表示中蛋白质 - 蛋白质相互作用的卷积神经网络模型。
这篇研究论文介绍了一种名为 ProteinNet 的数据集,在蛋白质序列 - 结构关系的机器学习模型的训练和评估方面提供了一种标准化机制,并提出了一种方法来克服已有数据集中存在的一些挑战。
Feb, 2019
利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏,揭示了大规模语言模型在数学推理领域存在的数据误用问题,并提出了关于模型文档、基准设置和未来评估的几点建议,其中包括提出 “基准透明卡” 以促进透明度和语言模型的健康发展。
Apr, 2024
基于监督学习的在线地图方法在训练和评估过程中存在数据泄露的严重问题。为了揭示在未知环境中的真实性能,本研究引入了地理分割的数据,并通过实验证明其对性能评估的重要影响。
Dec, 2023
综述介绍了利用深度学习模型分析蛋白质相互作用的多样性方法,包括基于生物物理学知识的模型、表示学习、几何深度学习和生成模型,并指出了面临的挑战和新的研究方向。
深度学习模型在医学图像分析领域产生了重大变革,但由于数据泄漏的隐藏陷阱,其性能可能具有误导性。在本研究中,我们调查了 3D 卷积神经网络在 3D 医学影像中的数据泄漏问题,特别是在脑 MRI 分析中的应用。我们研究了不同的数据分割策略对于纵向脑 MRI 分析模型性能的影响,发现了潜在的数据泄漏问题,并通过 GradCAM 可视化揭示了 CNN 模型中由身份混淆引起的快捷方式。我们的研究结果与先前研究一致,强调了基于受试者的分割以及在不同受试者中进一步评估模型以确保深度学习模型在医学图像分析中的完整性和可靠性的重要性。
Sep, 2023
通过引入新的数据增强策略和物理信息神经网络,我们提出了一种解决蛋白质 - 配体相互作用预测中结构 - 亲和力数据缺乏的问题的可行方法,并得到了显著的性能提升,适用于药物发现中的配体结合活性评分和虚拟筛选。
Jul, 2023
这篇论文研究了机器学习中的一个关键问题 —— 数据泄漏,讨论了数据泄漏的分类,探讨了它与特定任务的关系,研究了其在迁移学习中的发生,并将传统归纳式机器学习与转导式机器学习框架进行了比较,最后强调了解决数据泄漏对于稳健可靠的机器学习应用的重要性。
Jan, 2024
数据驱动的机器学习模型通常基于灵活而非物理函数,可以将原子排列的微妙方面与能量和力的预测联系起来。我们的研究挑战在于化学环境描述符通常是稀疏的高维对象,缺乏明确定义的连续度量。我们通过经典的统计实验规划和最优设计方法来解决这个问题,以减轻狭窄和偏见采样的陷阱,并评估数据的信息量,确保训练集是否可行。这种方法易于实施,不需要复杂的框架或高性能计算。
May, 2024