基于树搜索的进化赌博机算法用于蛋白质序列优化

AAAIJan, 2024

基于树搜索的进化赌博机算法用于蛋白质序列优化

Tree Search-Based Evolutionary Bandits for Protein Sequence Optimization

Jiahao Qiu, Hui Yuan, Jinghong Zhang, Wentao Chen, Huazheng Wang...

TL;DR利用树搜索和强化学习模型，提高蛋白质工程过程的效率，并在实验中展示了其样本高效和小突变数量下找到顶级设计的能力。

Abstract

While modern biotechnologies allow synthesizing new proteins and function measurements at scale, efficiently exploring a protein sequence space and engineering it remains a daunting task due to the vast sequence space of any given protein. →

protein engineering biotechnologies tree search-based bandit learning iteration process machine learning models

发现论文，激发创造

遗传汤普森抽样的进化多臂老虎机

提出一种基于遗传算法的多臂赌博机算法来改善在线学习中的序列决策问题，并通过多臂赌博机仿真环境和实际流行病控制问题的实验结果显示，该方法显著优于基准算法，并介绍了 EvoBandit，一个基于 Web 的交互式可视化方案来指导读者进行整个学习过程并进行轻量级评估。

Apr, 2022

利用进化抽样改进基于少样本学习的蛋白质工程

本文提出一种少样本学习的方法来设计新的功能性蛋白质，该方法包括半监督迁移学习生成离散可行解空间和新型进化蒙特卡罗马尔可夫链采样算法更高效地探索可行解空间。我们在实验中展示了该方法设计出的高适应度基因激活剂有着比现有方法显著的命中率提升，且该方法可以轻松应用在其他蛋白质工程和设计问题中。

May, 2023

利用机器学习辅助的组合库定向蛋白质进化

通过机器学习指导的定向进化方法，可以更快速地探索突变多个位点编码的序列空间，从而大大提高通过蛋白工程实现梳理蛋白质序列空间的效率和多样性。在以人类 GB1 结合蛋白为例的实验中，机器学习指导的定向进化找到比其他定向进化方法更好的变异体，并成功地创造出合成两种可能的产物对映体的酶，通过两轮进化得到了催化选择性分别为 93％和 79％的变异体。

Feb, 2019

一种带有演化操作的赌博机方法进行模型选择

该研究论文将模型选择问题视为无限臂赌博机问题，通过部分训练（资源分配）选择模型，准确率作为奖励，最佳模型与最终选择模型之间的期望准确率差异作为遗憾，提出了一种基于进化算法的新型组合方法 Mutant-UCB，通过在三个开源图像分类数据集上的测试，证明了其相对于固定预算的超出先进技术的相关性。

Feb, 2024

使用基于 Bandit 的方法学习鲁棒的搜索策略

通过采用基于赌博机的学习技术来自动选择搜索启发式方法，我们的方法在线学习和选择一组搜索启发式方法，旨在获得具有健壮性和比原先性能更好的自适应搜索启发式方法。初步实验表明，自适应技术比原始搜索启发式方法更为健壮且性能更好。

May, 2018

基于遗传多臂赌博机的通过仿真进行离散优化的强化学习方法

本文提出了一种新算法 GMAB，将强化学习领域的多臂赌博机和遗传算法中的随机搜索策略相结合，通过模拟来解决离散随机优化问题。实验结果表明，GMAB 在大量测试问题中取得了优越的性能。

Feb, 2023

元强化学习和贝叶斯优化设计生物序列

本文通过 MetaRLBO，提出了一种对于生物序列的加速设计方法，使用 Meta-Reinforcement Learning 训练自回归生成模型，以 Bayesian Optimization 为辅助选择出有前途的序列，获得较强的鲁棒性和相对具有竞争力的结果。

Sep, 2022

N 元组赌博进化算法用于自动游戏改进

本文介绍了一种新的进化算法，旨在为人工智能辅助游戏设计提供更好的应用，该算法使用 AI 代理玩游戏的观察结果来评估游戏质量，其中 N-Tuple Bandit Evolutionary Algorithm 和 General Video Game AI agent 的应用更加有效。

Mar, 2017

自适应树形赌博机

通过将问题转化为 tree-armed bandits 并提供新结果，我们描述了一种适用于无穷多个多项式极大值的任何连续奖励函数的噪声全局优化和连续臂赌博算法，并在不需要先前信息的情况下实现了臂赌博的平方根遗憾和优化的反平方根误差，并证明了能够自适应地组合多个树以最小化遗憾，并且在缩放维度方面提供了接近匹配的较低界。

Feb, 2013

神经序列到序列学习的赌博式结构化预测

该研究提出利用递归神经网络中的注意力机制将线性 bandit 学习推广到神经序列到序列学习问题中，并介绍如何将控制变量结合到学习算法中以实现方差缩减和改进推广，通过对神经机器翻译任务的评估，表明通过领域适应和模拟 bandit 反馈可实现高达 5.89 BLEU 点的改进。

Apr, 2017