揭示蛋白质相互作用基准中的数据泄漏

Apr, 2024

揭示蛋白质相互作用基准中的数据泄漏

Revealing data leakage in protein interaction benchmarks

Anton Bushuiev, Roman Bushuiev, Jiri Sedlar, Tomas Pluskal, Jiri Damborsky...

TL;DR分析了蛋白质相互作用数据集中常见的数据泄漏问题并提出了构建基于蛋白质相互作用界面的结构相似性的数据集划分方法。

Abstract

In recent years, there has been remarkable progress in machine learning for protein-protein interactions. However, prior work has predominantly focused on improving learning algorithms, with less attention paid t

machine learning protein-protein interactions evaluation strategies data preparation data leakage

发现论文，激发创造

提升泛化能力的蛋白质相互作用设计学习

通过构建 PPIRef 数据集和使用 PPIformer 模型，本研究发现可以提高蛋白质 - 蛋白质相互作用的突变并表明其在仿真药物研究和疗法改进中的潜力。

Oct, 2023

基于 K-mer 的蛋白质相互作用预测方法改进：混沌游戏表示法、深度学习和降低表示偏差

通过提取非冗余的匹配数据进行无偏机器学习，开发了能够学习和预测蛋白质编码基因的混沌游戏表示中蛋白质 - 蛋白质相互作用的卷积神经网络模型。

Oct, 2023

ProteinNet：用于蛋白质结构机器学习的标准化数据集

这篇研究论文介绍了一种名为 ProteinNet 的数据集，在蛋白质序列 - 结构关系的机器学习模型的训练和评估方面提供了一种标准化机制，并提出了一种方法来克服已有数据集中存在的一些挑战。

Feb, 2019

大型语言模型中基准测试的基准泄露

利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏，揭示了大规模语言模型在数学推理领域存在的数据误用问题，并提出了关于模型文档、基准设置和未来评估的几点建议，其中包括提出 “基准透明卡” 以促进透明度和语言模型的健康发展。

Apr, 2024

仅评估定位：在线地图数据集中的数据泄漏及解决方法

基于监督学习的在线地图方法在训练和评估过程中存在数据泄露的严重问题。为了揭示在未知环境中的真实性能，本研究引入了地理分割的数据，并通过实验证明其对性能评估的重要影响。

Dec, 2023

建模蛋白质 - 蛋白质相互作用的深度学习方法生态系统的发展

综述介绍了利用深度学习模型分析蛋白质相互作用的多样性方法，包括基于生物物理学知识的模型、表示学习、几何深度学习和生成模型，并指出了面临的挑战和新的研究方向。

Oct, 2023

你如何划分数据很重要：数据泄漏和主题特征在纵向脑 MRI 分析中的研究

深度学习模型在医学图像分析领域产生了重大变革，但由于数据泄漏的隐藏陷阱，其性能可能具有误导性。在本研究中，我们调查了 3D 卷积神经网络在 3D 医学影像中的数据泄漏问题，特别是在脑 MRI 分析中的应用。我们研究了不同的数据分割策略对于纵向脑 MRI 分析模型性能的影响，发现了潜在的数据泄漏问题，并通过 GradCAM 可视化揭示了 CNN 模型中由身份混淆引起的快捷方式。我们的研究结果与先前研究一致，强调了基于受试者的分割以及在不同受试者中进一步评估模型以确保深度学习模型在医学图像分析中的完整性和可靠性的重要性。

Sep, 2023

一种用于精准绑定亲和力评分和虚拟筛选的多用途深度学习蛋白质 - 配体相互作用预测模型

通过引入新的数据增强策略和物理信息神经网络，我们提出了一种解决蛋白质 - 配体相互作用预测中结构 - 亲和力数据缺乏的问题的可行方法，并得到了显著的性能提升，适用于药物发现中的配体结合活性评分和虚拟筛选。

Jul, 2023

不要按按钮！探究机器学习和迁移学习中的数据泄漏风险

这篇论文研究了机器学习中的一个关键问题 —— 数据泄漏，讨论了数据泄漏的分类，探讨了它与特定任务的关系，研究了其在迁移学习中的发生，并将传统归纳式机器学习与转导式机器学习框架进行了比较，最后强调了解决数据泄漏对于稳健可靠的机器学习应用的重要性。

Jan, 2024

基于核方法的机器学习夹心势场实验设计的优化：提高效率和可转移性

数据驱动的机器学习模型通常基于灵活而非物理函数，可以将原子排列的微妙方面与能量和力的预测联系起来。我们的研究挑战在于化学环境描述符通常是稀疏的高维对象，缺乏明确定义的连续度量。我们通过经典的统计实验规划和最优设计方法来解决这个问题，以减轻狭窄和偏见采样的陷阱，并评估数据的信息量，确保训练集是否可行。这种方法易于实施，不需要复杂的框架或高性能计算。

May, 2024