polyBERT：一种化学语言模型实现全机器驱动的超快速高分子信息学

Sep, 2022

polyBERT：一种化学语言模型实现全机器驱动的超快速高分子信息学

polyBERT: A chemical language model to enable fully machine-driven ultrafast polymer informatics

Christopher Kuenneth, Rampi Ramprasad

TL;DR一种快速高效的机器学习驱动的聚合物信息学管道，使用一种名为 polyBERT 的化学指纹能力来识别聚合物的化学结构，并将其映射到一系列物性。该管道通过 2 个数量级的速度优势远超过手工指纹方案，同时保持准确性，是部署在可扩展架构中的强有力选项。

Abstract

polymers are a vital part of everyday life. Their chemical universe is so large that it presents unprecedented opportunities as well as significant challenges to identify suitable application-specific candidates. We present a complete end-to-end machine-driven polymer →

polymers polybert informatics chemical structure property prediction

发现论文，激发创造

使用自然语言处理从大型高分子库中提取通用材料属性数据的流程

本研究使用自然语言处理方法自动提取高分子文献中的材料性质数据，并训练了材料科学摘要的语言模型 MaterialsBERT。通过该模型，我们在 60 小时内从约 13 万篇摘要中提取了约 30 万条材料性质记录，证明了从已发表文献开始进行自动数据提取的可行性。

Sep, 2022

ChemBERTa: 面向分子性质预测的大规模自监督预训练

这项工作通过 ChemBERTa 模型对分子性质预测任务中的 transformers 进行了系统评估，结果表明 transformers 在分子表示学习和性质预测方面具有很大的发展潜力，同时我们为大规模自监督预训练提供了一份 77M SMILES 的数据集。

Oct, 2020

转移分子基础模型以预测聚合物性质

使用在小分子上预训练并在聚合物属性上微调的 Transformer 模型，可以达到与在扩增聚合物数据集训练的模型相当的准确性，对于一系列基准预测任务来说。

Oct, 2023

超越化学语言：多模态方法提高分子性质预测

本文介绍了一种新颖的多模态语言模型方法，结合化学语言表征和物理化学特征，以预测分子性质。我们的方法使用因果多阶段特征选择方法，在 MOLFORMER 生成的分子嵌入向量空间中，将这些因果特征与物理化学特征相结合。我们的结果表明，与现有的化学语言模型 MOLFORMER 和图形神经网络相比，在预测生物降解性和 PFAS 毒性估计等复杂任务方面，我们的提出的方法表现更优秀。此外，我们证明了我们的特征选择方法可以在保持或提高模型性能的同时降低 Mordred 特征空间的维数。这一方法为未来的分子性质预测研究开辟了有 promising avenues。

Jun, 2023

高分子信息学：现状与关键下一步

人工智能及机器学习等工具在高效的开发、设计和发现聚合物中发挥作用，数据驱动策略正在探索化学和物理多样性，文章回顾了新兴聚合物信息学生态系统，并讨论了即将出现的挑战和机遇。

Nov, 2020

ChemBERTa-2：面向化学基础模型的发展

本文探讨使用 SMILES 语言构建化学基础模型 ChemBERTa-2，并经过预训练过程的优化，发现在分子预测任务上优于现有的最先进架构。

Sep, 2022

基于多模态多任务预训练的预测聚合物性质

该研究提出了 MMPolymer，一种新颖的多模态多任务预训练框架，结合了聚合物的 1D 顺序信息和 3D 结构信息，以增强下游聚合物性质预测任务。实验证明，MMPolymer 在各种聚合物性质预测任务中实现了最先进的性能。

Jun, 2024

GPT-MolBERTa: 用于分子性质预测的 GPT 分子特征语言模型

利用自然语言处理模型 GPT-MolBERTa，通过分析分子的详细文本描述来预测其性质，并展示模型的可解释性。

Sep, 2023

基于 BioBERT 的深度学习和融合的 ChemProt-DrugProt 方法用于增强的生物医学关系抽取

本文介绍了一种增强生物医学文本中关系抽取的方法，重点关注化学基因相互作用。利用 BioBERT 模型和多层全连接网络架构，我们的方法使用一种新颖的合并策略，将 ChemProt 和 DrugProt 数据集集成在一起。通过大量实验，我们证明了显著的性能提升，特别是在数据集之间共享的 CPR 组。研究结果强调了数据集合并在增加样本数量和提高模型准确性方面的重要性。此外，该研究突显了自动化信息提取在生物医学研究和临床实践中的潜力。

May, 2024

单多义等级和语义划分揭示：BERT 的表现

该研究针对多语言预训练语言模型（LMs）的词汇多义性知识不清晰的问题，提出了一种新的实验方法，通过对反应词语多义性分布的数据集进行分析，控制与多义性高度相关的参数，证明 BERT-derived 的表示能够反映单词的多义水平以及它们拆分为不同义项。它揭示了 contextualized representations 中编码的知识并为多语言词汇语义研究开创了新的途径。

Apr, 2021