前有AlphaFold根据基因序列预测蛋白质结构,后有David Baker团队用AI“构想”和设计蛋白质。 不知今后AI还能会给我们带来什么样的惊喜,一切只需交给时间来验证。撰文丨徐诗露 编辑丨李晓韦、叶水送 来源丨深究科学 2022年7月28日,DeepMind在公司官网发布了一篇名为“ AlphaFold reveals the structure of the protein universe ”的新闻, 宣布AlphaFold已经预测出全球几乎所有已知蛋白质结构。 从AlphaFold发布源代码至今,仅有一年的时间,在这一年里,已经有超过50万名研究人员访问了AlphaFold,并将其数据用于加速他们的科学研究。 AlphaFold是怎么发展起来的,将给世界带来了什么?AI和生物科学的结合究竟还有多少惊喜在等待着我们? AlphaFold的出现让预测复杂蛋白质结构变得无比简单,时至今日,许多未解的蛋白质结构逐渐浮出水面,帮助我们一层层解锁生命的密码。 实际上,世界未解之谜总是吸引着无数人去猜测和探索,复杂蛋白质的结构也是一个无比吸引科学家的问题,由于蛋白质的形状与其功能密切相关,了解蛋白质的结构可以更好地了解它的作用以及它的工作原理。 01 突破:1年时间,50万研究人员访问,2亿个蛋白结构2021年7月,DeepMind公司和欧洲生物信息学研究所 (EMBL-EBI) 合作,自他们发布AlphaFold源代码并创建AlphaFold蛋白质结构数据库以来,已经过去了一年。 这个数据库发布初期,已经包含了98.5%的人类蛋白质结构。迄今为止,他们发表在《自然》(Nature)上的论文已经被引用了4000多次,已有来自190个国家的50多万名研究人员已经访问了AlphaFold数据库,查看了超过200万个结构。 从解决塑料污染问题、深入了解帕金森病 (Parkinson’s disease) ,再到冰的形成、利什曼病等,AlphaFold的影响力逐渐凸显。 图片来源:EMBL-EBI 而今,DeepMind公司和EMBL-EBI进一步合作,他们已经预测了几乎所有科学界已知的蛋白质结构,并且正在将这些蛋白质结构同步到AlphaFold数据库中。 这个数据库即将扩展至现在的200倍,蛋白质结构的数据量将从近100万个扩展到超过2亿个,这次的扩展不再仅仅着眼于人类蛋白质,而是包括植物、细菌、动物和其他生物体在内的各种物种的蛋白质结构。 蛋白质结构的数量(紫色小圆表示实验所得的蛋白质结构数据量,浅蓝色中圆表示早期AlphaFold数据库中 的数据量,蓝色大圆表示现在AlphaFold数据库中的数据量) 图片来源:deepmind.com AlphaFold在一年之内预测的蛋白结构就得到极大提升 EMBL的总管Edith Heard表示, AlphaFold现在提供了蛋白质宇宙的3D视图,它向我们展示了多学科融合的力量。 DeepMind创始人兼首席执行官Demis Hassabis感慨, AlphaFold已经对我们一些最大的全球挑战产生了令人难以置信的影响。我们希望这个扩展的数据库将帮助无数科学家完成他们的重要工作,并为科学发现开辟全新的途径。 在AlphaFold公布开源代码之前,我们对它所知甚少,这个跨界融合的平台究竟是怎么发展起来的呢? 02 AlphaFold如何发展起来的:从一个小团队到惊动全球早在2016年3月,当我们的目光还聚集在AlphaGo (阿尔法狗) 打败了全球围棋选手的时候,DeepMind就已经确定自己的人工智能技术可以应用于科学实验,于是他们针对“蛋白质折叠问题”成立了一个小团队,开始研究蛋白质结构预测问题。 2018年12月,在第13届蛋白质结构预测关键评估 (CASP13) 中,AlphaFold的性能首次公开测试,获得了排名第一的成绩,他们的团队进行了扩张,并着力于开发一个创新的系统。 2020年11月,AlphaFold参加了CASP14,并且被CASP组织机构公认为是“解决了50年来的蛋白质折叠问题的方法”。这时候AlphaFold才开始被各界科研人员所知。 图片来源:deepmind.com AlphaFold真正开始给蛋白质研究领域带来巨大影响,得从2021年7月算起。7月15日,他们在Nature公布了AlphaFold开源代码以及长达60页的补充信息,对AlphaFold系统进行了详细介绍。 一周后,DeepMind公司首次和EMBL-EBI合作,共同推出了AlphaFold蛋白质结构数据库。至此,AlphaFold的力量被交到了全世界科研人员手中。 蛋白质结构数据库 此后,在2021年12月,DeepMind通过EMBL-EBI将超过40万种蛋白质结构添加到AlphaFold蛋白质结构数据库中,使数据库中的数据量增加了一倍多。 2022年1月,他们再次向数据库添加了27个新的蛋白组,总共有超过19万种蛋白质。其中17个组别包含了被忽视的热带病,这些疾病影响了全球超过10亿人的生活,而这次的数据库更新给这些疾病的治疗提供了新的思路。 七年来,AlphaFold研究团队探索的步伐从未停止,而今天,他们的成果已经让各界瞩目。这项AI和生物科学结合的成果,给蛋白质研究领域激起了层层涟漪,同样,这一跨界融合的想法,也给生命科学的研究提供了新的思路。 03 新思路:人工智能还会给我们带来哪些惊喜?自AI在生物医学领域“出道”的先河开启之后,越来越多的科学家奔赴到这个赛道上,试图让AI更好地帮助我们揭开蛋白质的奥秘。 近期,《科学》(Science)上发表的一篇题为: Scaffolding protein functional sites using deep learning 的研究论文,也在AI和蛋白质研究的跨界融合上取得了新的进展。 有趣的是,David Baker团队设计的这款软件是建立在AlphaFold和RoseTTAFold (另一个蛋白质结构预测平台,由David Baker团队开发) 等现有平台上的。 他们利用深度学习的方法对RoseTTAFold进行改进, 将AI训练的可以根据预定的蛋白质目标或已知的蛋白质功能位点,来“构想”和设计蛋白质结构。这就像是你在手机上输入几个字母后,输入法会自动给你补全整个单词。 华盛顿大学医学院生物化学系教授、蛋白质设计研究所所长 David Baker 在设计出蛋白质结构之后,David Baker、Jue Wang团队再使用AlphaFold对他们的预测结果进行验证,他们获得的设计能够以极小的误差被AlphaFold再现出来,这证明了他们设计的这一软件具有很高的可信度。 这同样是AI和蛋白质研究领域的一个重要突破。前有AlphaFold根据基因序列预测蛋白质结构,后有David Baker团队用AI“构想”和设计蛋白质。 不知今后AI还能会给我们带来什么样的惊喜,一切只需交给时间来验证。 参考资料: 1.AlphaFold reveals the structure of the protein universe.DeepMind. https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe 2.AlphaFold predicts structure of almost every catalogued protein known to science.EMBL-EBI. https://www.ebi.ac.uk/about/news/technology-and-innovation/alphafold-200-million/ 3.Timeline of a breakthrough.DeepMind. https://www.deepmind.com/research/highlighted-research/alphafold/timeline-of-a-breakthrough 4.Scaffolding protein functional sites using deep learning.Science. https://www.science.org/doi/10.1126/science.abn2100
(责任编辑:dawenwu)
AlphaFold再获突破,预测了地球上几乎所有已知蛋白质
600