polyBERT:一种化学语言模型实现全机器驱动的超快速高分子信息学
本研究使用自然语言处理方法自动提取高分子文献中的材料性质数据,并训练了材料科学摘要的语言模型 MaterialsBERT。通过该模型,我们在 60 小时内从约 13 万篇摘要中提取了约 30 万条材料性质记录,证明了从已发表文献开始进行自动数据提取的可行性。
Sep, 2022
这项工作通过 ChemBERTa 模型对分子性质预测任务中的 transformers 进行了系统评估,结果表明 transformers 在分子表示学习和性质预测方面具有很大的发展潜力,同时我们为大规模自监督预训练提供了一份 77M SMILES 的数据集。
Oct, 2020
使用在小分子上预训练并在聚合物属性上微调的 Transformer 模型,可以达到与在扩增聚合物数据集训练的模型相当的准确性,对于一系列基准预测任务来说。
Oct, 2023
本文介绍了一种新颖的多模态语言模型方法,结合化学语言表征和物理化学特征,以预测分子性质。我们的方法使用因果多阶段特征选择方法,在 MOLFORMER 生成的分子嵌入向量空间中,将这些因果特征与物理化学特征相结合。我们的结果表明,与现有的化学语言模型 MOLFORMER 和图形神经网络相比,在预测生物降解性和 PFAS 毒性估计等复杂任务方面,我们的提出的方法表现更优秀。此外,我们证明了我们的特征选择方法可以在保持或提高模型性能的同时降低 Mordred 特征空间的维数。这一方法为未来的分子性质预测研究开辟了有 promising avenues。
Jun, 2023
人工智能及机器学习等工具在高效的开发、设计和发现聚合物中发挥作用,数据驱动策略正在探索化学和物理多样性,文章回顾了新兴聚合物信息学生态系统,并讨论了即将出现的挑战和机遇。
Nov, 2020
本文探讨使用 SMILES 语言构建化学基础模型 ChemBERTa-2,并经过预训练过程的优化,发现在分子预测任务上优于现有的最先进架构。
Sep, 2022
该研究提出了 MMPolymer,一种新颖的多模态多任务预训练框架,结合了聚合物的 1D 顺序信息和 3D 结构信息,以增强下游聚合物性质预测任务。实验证明,MMPolymer 在各种聚合物性质预测任务中实现了最先进的性能。
Jun, 2024
利用自然语言处理模型 GPT-MolBERTa,通过分析分子的详细文本描述来预测其性质,并展示模型的可解释性。
Sep, 2023
本文介绍了一种增强生物医学文本中关系抽取的方法,重点关注化学基因相互作用。利用 BioBERT 模型和多层全连接网络架构,我们的方法使用一种新颖的合并策略,将 ChemProt 和 DrugProt 数据集集成在一起。通过大量实验,我们证明了显著的性能提升,特别是在数据集之间共享的 CPR 组。研究结果强调了数据集合并在增加样本数量和提高模型准确性方面的重要性。此外,该研究突显了自动化信息提取在生物医学研究和临床实践中的潜力。
May, 2024
该研究针对多语言预训练语言模型(LMs)的词汇多义性知识不清晰的问题,提出了一种新的实验方法,通过对反应词语多义性分布的数据集进行分析,控制与多义性高度相关的参数,证明 BERT-derived 的表示能够反映单词的多义水平以及它们拆分为不同义项。它揭示了 contextualized representations 中编码的知识并为多语言词汇语义研究开创了新的途径。
Apr, 2021