TSIS：基于片段的分子表示的 t-SMILES 的补充算法

Feb, 2024

TSIS：基于片段的分子表示的 t-SMILES 的补充算法

TSIS: A Supplementary Algorithm to t-SMILES for Fragment-based Molecular Representation

Juan-Ni Wu, Tong Wang, Li-Juan Tang, Hai-Long Wu, Ru-Qin Yu

TL;DR该研究介绍一种名为 TSIS（TSID 简化）的补充算法，用于 t-SMILES 家族，与基于片段的线性解决方案 SAFE 相比较实验结果表明，TSIS 模型的性能优于 SAFE 模型，这表明 t-SMILES 家族的树状结构具有一定优势。

Abstract

String-based molecular representations, such as smiles, are a de facto standard for linearly representing molecular information. However, the must be paired symbols and the →

molecular representations smiles parsing algorithm deep learning models t-smiles

发现论文，激发创造

基于碎片的 t-SMILES 用于新颖分子的生成

本研究介绍了一种名为 t-SMILES 的分子表示方法，采用基于分子图的全二叉分子树上的 BFS 得到 SMILES 类型字符串描述分子，可结合序列生成模型和图模型的优势，适用于分子生成和设计任务，实验证明 t-SMILES 基于模型表现显著超越了先前提出的基于片段的模型，并且对传统的 SMILES 和图模型具有竞争力。

Jan, 2023

将 SMILES 的语言知识融入化学语言模型

本研究使用 SMILES 语法解析技术从 SMILES 中获取子结构的连接性和类型背景知识并将其注入转换器模型，从而提高了分子属性预测的性能。

Apr, 2022

Gotta be SAFE: 分子设计的新框架

通过引入序列附加式片段嵌入（SAFE）作为化学结构的新型线型表示方法，我们有效地解决了传统分子字符串表示（如 SMILES）对人工智能驱动的分子设计所带来的挑战，同时简化了复杂的生成任务，并且通过在具有片段约束的设计中进行自回归生成，消除了复杂解码或基于图的模型的需要。通过在包含 11 亿 SAFE 表示的数据集上训练一个类似于 GPT2 的模型，我们展示了 SAFE 的有效性，并证明了我们的 SAFE-GPT 模型具有多样而稳健的优化性能。SAFE 为在各种约束条件下快速探索化学空间打开了新的途径，为人工智能驱动的分子设计带来突破性进展。

Oct, 2023

自引嵌入字符串（SELFIES）：一种 100% 鲁棒的分子字符串表示

该研究提出了一种称为 SELFIES 的分子字符串表示法，每个 SELFIES 字符串都对应着一个合法的分子，这种方法可以直接用于任意的机器学习模型中，其生成的分子候选集合法且多样性更高，并且允许更好的解释和解读生成模型的内部机制。

May, 2019

SELFIES 与分子链表示法的未来

该研究探讨了化学中的自然语言处理与机器学习的应用，重点介绍了一种新的分子语言 SELFIES，并提出了 16 个具体的未来项目计划，以发掘分子字符串表示在化学和材料科学中的潜力。

Mar, 2022

SMILES 枚举作为分子神经网络建模的数据增强

使用 SMILES 枚举技术对分子 QSAR 数据集进行数据增强，使得神经网络训练表现得更好。该技术不仅适用于训练阶段，还能在预测阶段对结果进行进一步提升。

Mar, 2017

TSIT: 一种简单且通用的图像到图像翻译框架

提出了一种简单而通用的图像到图像翻译框架，利用归一化层和新提出的特征变换，实现了多模态图像合成并具备任意风格控制的能力，进行了与多个先进方法的比较，证明了其在感知质量和定量评估方面的有效性。

Jul, 2020

SMILES Transformer: 面向低数据药物发现的预训练分子指纹

本文介绍了一种基于 SMILES Transformer 的分子指纹预测方法，该方法在虚拟筛选和其他药物发现任务中表现出优越性，在小数据集和复杂分析环境中表现良好。

Nov, 2019

基于小波的无监督标签到图像转换

本文提出了一种新的无监督学习范例 (Unsupervised Paradigm for SIS, USIS)，通过使用自监督分割损失和基于整个图像小波的鉴别方法，结合在小波域中的生成器结构，使得语义图像合成 (SIS) 在不需要大量的配对数据的情况下实现，从而弥补了配对和非配对模型之间的性能差距。在三个具有挑战性的数据集上进行测试，证明了新方法的有效性。

May, 2023

基于可读性引导的成语感知句子简化（RISS）对中文的应用

通过结合数据增强技术和词汇简化，我们提出了一种名为 RISS（Readability-guided Idiom-aware Sentence Simplification）的新框架，用于解决中文句子简化面临的挑战，包括缺乏大规模标记平行语料库和惯用语的普遍存在。RISS 通过多阶段和多任务学习策略将 RPS 和 IAS 整合在一起，从而在两个中文句子简化数据集上优于先前的最先进方法。此外，在小型标记数据集上微调后，RISS 还取得了进一步的改进。我们的方法展示了更加有效和可访问的中文文本简化的潜力。

Jun, 2024