回归 Transformer: 分子语言建模的序列回归和生成并行
利用基于语言模型的灵活深度学习策略,基于一个完全基于提示的模型,将 transformer 和图卷积架构集成到因果多头图机制中,实现一个生成预训练模型,用于预测蛋白质的二级结构内容、蛋白质可溶性和蛋白质测序等任务,并可用于设计具有这些特性的蛋白质,这个模型展现了多任务和协同作用的应用价值。
May, 2023
我们介绍了一种用于分子全新设计的 Transformer 基准生成模型的微调方法,利用 Transformer 相比循环神经网络 (RNNs) 的优越序列学习能力,我们的模型可以有效地生成具有期望属性的分子结构。与传统的基于 RNN 的模型相比,我们提出的方法在生成被预测为对多种生物目标活性化合物方面表现出优秀性能,捕捉分子结构序列中的长期依赖关系。通过生成查询结构的类似物和产生具有特定属性的化合物等多项任务的验证,我们的方法在性能上优于基准的基于 RNN 的方法。我们的方法可用于脱轴融合 (scaffold hopping),从单个分子开始的库扩展,以及生成对生物目标具有高预测活性的化合物。
Oct, 2023
在医学背景下,基于时间序列的数据通常具有长程依赖并且在非均匀时间间隔下进行观察。为了解决这个问题,研究者们用基于神经 ODE 的模型取代了传统的基于序列的循环模型,来对不规则采样的数据进行建模,并使用基于 Transformer 的架构解决长程依赖的问题。尽管这两种方法都取得了成功,但是对于中等长度的输入序列而言,它们都需要非常高的计算代价。为了缓解这个问题,我们引入了 Rough Transformer,这是 Transformer 模型的一种变体,它能够对连续时间表示的输入序列进行操作,并且具有显著减少的计算代价,这对于处理医疗背景下的长程依赖是至关重要的。具体而言,我们提出了多视角签名注意力,它利用路径签名来增强原始注意力,并在输入数据中捕捉局部和全局依赖关系,同时对序列长度和采样频率的变化保持稳健性。我们发现,Rough Transformers 在合成和真实的时间序列任务中,始终优于其原始注意力对照组,并且只需要部分计算时间和存储资源,就能够获得基于神经 ODE 模型的好处。
Mar, 2024
本文提出了一种部分自回归模型 Levenshtein Transformer,在线性时间复杂度内支持插入和删除操作,实现了互补的拆解和精细化的设计思路,成功地提高了机器翻译和文本自动编辑的效率。
May, 2019
通过研究 transformers 在混合回归问题中的表现,我们发现它可以学习到一个最优预测器,在数据生成过程中表现出低均方误差,并且在推断时做出接近最优的预测。同时,我们证明了最优预测器可以通过 transformer 实现。
Nov, 2023
该论文提出了一种潜在提示 Transformer 模型,用于解决诸如分子设计等具有挑战性的优化问题,其目标是找到具有目标化学或生物特性优化数值的分子,可以通过现有软件进行计算。我们的模型由三个组成部分组成:(1) 潜在向量,其先验分布由高斯白噪声向量的 Unet 转换建模。(2) 分子生成模型,根据 (1) 中的潜在向量生成基于字符串的分子表示。我们采用因果 Transformer 模型,将 (1) 中的潜在向量作为提示。(3) 属性预测模型,根据 (1) 中的潜在向量上的非线性回归来预测分子的目标属性值。我们将所提出的模型称为潜在提示 Transformer 模型。在对现有分子及其属性值进行初始训练后,我们逐渐将模型分布转移到支持所需目标属性值的区域,以进行分子设计。我们的实验证明,我们提出的模型在几个基准分子设计任务上实现了最先进的性能。
Oct, 2023
本研究提出插入变换器,是基于插入操作的迭代,部分自回归模型,可在解码期间在序列中的任何位置插入标记,这种灵活性提供了多种性能优势,特别是在 WMT 2014 英德机器翻译任务中表现出色,成功恢复原始 Transformer 的性能,同时只需要对数次迭代即可完成。
Feb, 2019
本文提出了一种挑战基于遗传编程的符号回归任务的两步法的新方法,利用 Transformer 直接预测包括常数在内的完整的数学表达式,并通过给非凸优化器提供信息化的初始化对预测的常数进行细化,实验表明该方法的效果更好,在 SRBench 基准问题上的表现接近最先进的基因编程方法,并且推断速度要快数个数量级。
Apr, 2022
在处理非均匀间隔的时间序列数据时,传统的循环模型表现不佳,研究人员通常会使用基于神经常微分方程的模型和基于 Transformer 的模型来解决长程依赖和不规则采样数据的问题。为了解决这一挑战,本文引入了 Rough Transformer,一种在连续时间表示中操作的 Transformer 模型,大大降低了计算成本。我们提出了 “多视图签名注意力”,使用路径签名增强了原始注意力机制,捕捉了输入数据的本地和全局依赖关系,并对序列长度和采样频率的变化保持鲁棒性,并获得了空间处理的改进效果。我们发现,Rough Transformers 在各种时间序列相关任务中始终优于传统的注意力机制,同时获得了神经常微分方程模型的表征优势,并且仅消耗计算时间和内存资源的一小部分。
May, 2024