Science | 华盛顿大学Baker团队提出AI新范式设计全新蛋白复合物

蛋白质的结构形态和生物学功能是由氨基酸序列决定的。 人工蛋白质设计的目标就是创造可以折叠成特定结构以实现特定功能的新型氨基酸序列。 当然,这并不是一个简单的问题,因为它需要了解蛋白质如何在细胞中折叠,而这一过程在很大程度上仍不为生物物理学家们所知。 近年来,人工智能和深度学习技术的最新进展,已经让计算生物学家们可以利用神经网络,来建立蛋白质序列和结构之间的定量关系。同时,因为人工智能的发展,蛋白质人工设计也取得了长足的进步。

华盛顿大学 David Baker 教授团队最近在 《科学》期刊发表了题为:“Top-down design of protein architectures with reinforcement learning”(基于强化学习的自上而下的蛋白质结构设计)的研究论文。该研究提出了一种“自上而下”的蛋白设计新范式,从而研发了一种基于强化学习的蛋白质设计软件,并证明了它有能力创造有功能的高阶蛋白质复合物。这一突破将开启蛋白质设计的新时代,对癌症治疗、再生医学、强效疫苗和可生物降解日用品都有积极影响。

蛋白质设计原理和新范式

Baker实验室发表的这项工作主要基于两个基于 AI 的工具,一是Baker实验室以前开发的用于蛋白质设计的 ProteinMPNN,第二个是谷歌DeepMind团队2年前开发的用于蛋白质结构预测的 AlphaFold2。

虽然在该领域(包括Baker团队)在设计单个蛋白质折叠单元方面取得了许多成功,但 Baker 及其同事的这篇论文试图应对设计包含许多对称链的蛋白质-蛋白质复合物的挑战。 这种天然的对称性正是有许多生物病毒形成其蛋白质外壳(称为衣壳)以执行特定功能的原因。

此前的蛋白复合物的研究,大多都是通过首先设计单个组件链,然后将组件链组装成对称的复杂结构来设计蛋白质复合物。 这种所谓的bottom-up(“自下而上”)设计范式的一个问题是单体的设计过程不能考虑最终复合物的对称性,这可能导致单体设计的形状匹配不完美。

Bake实验室这项工作的主要技术创新是通过称为蒙特卡罗树搜索 (MCTS) 的过程同时设计复合体的组件和全局对称性。 这就是文章中所谓的top-down(“自上而下”)的设计范式,它将有助于提高设计复合体的效率和质量,并可能导致设计单元的紧密包装。

Baker实验室提出的自上而下的蛋白质设计范式 

设计具体高度对称性的蛋白质复合物

近年来,人工智能(Artificial Intelligence,AI)已经在多个领域大放异彩并深入到我们的日常生活中。从围棋领域的 AlphaGo 到预测蛋白质结构的 AlphaFold,从 AI 绘画再到火遍全网的 ChatGPT,人工智能作为一种新兴的颠覆性技术,正在逐步释放科技革命和产业变革积蓄的巨大能量,并将深刻改变人类的生活和思维方式。

AlphaGo 之所以能够战胜人类顶尖职业围棋选手,依赖于一种名为强化学习的机器学习系统,其计算机程序通过不断地尝试并同时接受反馈来学习如何做出最正确的决策。

回到蛋白质设计上,如果将蛋白质比作一张张围棋谱,那么蛋白质结构域就是一个个围棋定式。从这一点来看,基于强化学习人工智能软件也能应用到蛋白质的从头设计上来——通过大量的训练,最终获得一个功能强大的新蛋白质设计软件。

自上而下设计范式设计的具有天然对称性的蛋白纳米颗粒。 

为了创造这样一个可用于蛋白质设计的AI软件,Baker团队给计算机输入了数百万个简单蛋白质的序列、结构信息,然后,这一AI软件进行了上万次尝试,并且每次都进行反馈改进,以达到预定的目标——从头设计全新的蛋白质。在这个过程中,计算机以特定的方式延长或弯曲蛋白质,直到学会如何将它们折叠成想要的形状。

研究团队通过这种强化学习软件设计了数百种蛋白质,并在实验室中进行基因克隆、蛋白表达和结构测定。为了衡量软件的准确性,他们通过电子显微镜等设备测定了这些AI设计的蛋白质的实际结构,并发现其与软件预测的蛋白质结构非常一致。

研究团队专注于设计由许多蛋白质分子组成的新型纳米级结构,这要求他们设计的蛋白质具有允许纳米结构自组装的化学界面。因此,研究团队观察了AI设计蛋白质的纳米结构,并发现其中每个原子都在预定的位置上。换句话说,这种强化学习软件具有原子精度的设计能力,其预期和实际实现的纳米结构之间的偏差平均小于单个原子的宽度。

此外,研究团队还通过血管细胞的原代细胞模型表明,这种强化学习软件还可以对蛋白质支架结构进行优化。例如,通过使细胞受体更密集地聚集在更紧凑的支架上,从而在促进血管稳定性方面更有效。

冷冻电镜的成像结果显示,计算机设计蛋白复合物的实验结构与最初预定设计的结构高度一致 

这篇《科学》论文通讯作者 David Baker 教授表示,这项研究表明强化学习可以做的不仅仅是掌握棋盘游戏。当训练解决蛋白质科学中长期存在的难题时,它还擅长于创造有用的蛋白质分子。如果将这种方法被应用到正确的研究问题上,就可以加速各种科学领域的进步。

小结与评论

总体来讲,这项工作的主要创新点就是提出了一种蛋白质复合物设计新的范式,即在设计蛋白质复合物的时候,同时考虑单体结构以及单体结构之间的高阶对称性。除此之外,该工作的所用的其他工具(ProteinMPNN和AlphaFold2)都是以前发表过的。其所使用的强化学习的概念,也来自此前提出的蒙特卡洛搜索树 (Monte Carlo tree search,MCTS)算法(--这个算法的本质被认为是强化学习的一种)。尽管如此,将这个设计范式运用在高质量蛋白质复合物设计上,如人工病毒衣壳,具有许多重要的生物医学用途。 除了作为信号蛋白和疫苗蛋白的设计应用之外,该工作还可以用于帮助基因治疗。

如所周知,基因治疗的目标就是修改患者的基因以治疗或治愈疾病,而基因治疗的关键步骤是将工程基因货物安全地递送至靶细胞。 大多数基因治疗方法使用腺相关病毒 (AAV) 作为基因载体。 但 AAV 是一种人类经常接触的天然病毒,许多患者携带抗 AAV 的抗体。 Baker实验室的这项工作中报告的方法也可用于重新设计新的类 AAV 笼子,这对于更安全的基因传递非常有帮助,并可大大改进基因治疗的效率。

参考文献

I. Lutz et al. Top-down design of protein architectures with reinforcement learning. Science,  Apr 20, 2023. Vol 380, Issue 6642. pp. 266-273.

(https://www.science.org/doi/10.1126/science.adf6591).

​​​​​​


http://www.niftyadmin.cn/n/251181.html

相关文章

【方法一:二分+字符串哈希 优化】【dp——取不取问题-背包】最长公共子串【上海交通大学考研机试题】

最长公共子串 二分方法字符串哈希的复习字符串哈希 如何理解 二分代码 dp方法字符串str1中以第i个字符为结尾的子串 与字符串str2中以第i个字符为结尾的子串的连续公共子串 二维一维优化 二分方法 由于这个题是要求求子串,而子串是连续的一段,所以用二分…

20.上传模块

学习要点: 1.上传模块 本节课我们来开始了解 Layui 的内置模块:上传模块。 一.上传模块 1. 首先,为了课程简洁,我们不考虑服务器设置的真实上传,只讲解前端设置; 2. 真实上传,可以放…

根据端口号查询进程路径

研究背景: 在工作的时候,有时候我们会在服务器上部署很多API接口程式,每个程式都有不同的端口号,便于提供服务。当时间久了,我们需要对接口操作的时候,我们有可能会忘掉接口程式所在的路径,而只…

使用python下载wallpaper Engine订阅的壁纸/视频

一、为什么想下载wallpaper Engine的壁纸 在游戏平台steam上,有一个壁纸软件wallpaper Engine,人称小红车,里面有各种好看的动态壁纸和视频,可以给我们的电脑设置动态桌面,非常好用。   用过几次后,我有了…

web前端实验5

实 验 报 告 课 程 Web前端应用开发 实验项目 Jquery AJAX编程 成 绩 专业班级 班内序号 指导教师 姓 名 学 号 实验日期 实验目的及要求: (1) 理解和掌握Jquery AJAX的get方式请求 (2) 理解和掌握Jquery AJAX的pos…

zabbix搭建

1.环境 本实验使用一台centos7主机,关闭了firewalld和selinux服务,zabbix版本为5.0版本,mysql使用版本为5.7版本 若要搭建6.0以上版本的zabbix,则需要使用mysql 8.0以上的版本 其它版本的zabbix可参考zabbix官网:Download and…

并查集解决图的连通性问题

并查集 1. 定义2.并查集3.模板代码4. 力扣例题4.1 剑指 Offer II 118. 多余的边4.2 力扣695. 岛屿的最大面积 1. 定义 在计算机科学中,并查集(英文:Disjoint-set data structure,直译为不交集数据结构)是一种数据结构&…

STATS 782 - Control Flow and Functions

文章目录 一、Control Flow1. If-Then-Else2. Loops 二、Functions1. Defining Functions2. 使用函数计算数学公式 总结 一、Control Flow 1. If-Then-Else > if (x > 0) y sqrt(x) else y -sqrt(-x)或 > y if (x > 0) sqrt(x) else -sqrt(-x)2. Loops ① fo…