首页 > 云计算 > 正文
分享到:

跨尺度建模兼顾计算的快和准,AI如何帮助科学进化?

时间:2022-10-16 10:43:04 来源:极客公园 评论:0 点击:0

  用 AI 模拟微观世界,跨尺度理解物理现象。

  作者 | 前沿社

  从 1956 年「人工智能」概念诞生,讨论「如何用机器模拟人的智能」已经经历 70 余年,在算法、算力和数据方面取得了诸多突破,并在在诸如智能制造、自动驾驶等工业领域有着充分的发展。

  近几年,AI 在生物、能源、制药、材料等科学领域的作用正在经历大的转变。AI 强大的数据归纳、分析能力让科学家从重复验证和试错的过程中解放出来;同时,AI 也正在从科学的最底层规律出发,让 bottom up 的纯数据驱动方式逐渐转向与物理模型相融合的阶段。

  AI for Science,即科学智能,就是用 AI 去学习科学原理,然后得到模型,进而去解决实际的问题。比如 AlphaFold2 对蛋白质折叠结构预测,就攻克了困扰生物学界 50 余年的难题。

  9 月 22 日,前沿社组织了一场关于 AI for Science 主题的线上「夜聊」,特别邀请到深势科技创始人 & CEO 孙伟杰,共同探讨 AI 对于传统科研究竟意味着什么,最终会带来哪些改变?当 AI 开始在部分基础科学中成为研究工具,接下来会如何演进?

  深势科技成立于 2018 年,是 AI for Science 科学研究范式的先行者,致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。核心成员团队获得过 2020 年「戈登贝尔奖」——这个奖被称为「全球超算领域的诺贝尔奖」。

  深势科技推出的蛋白质结构预测工具 Uni-Fold,是领域内首个接近 AlphaFold2 精度、并且开源了训练代码和推理代码的项目;Uni-Fold 还克服了 AlphaFold2 硬件支持单一、模型不可商用等局限性 | 图:Uni-Fold 预测的蛋白结构

  前沿社活动均为创业者、企业家之间的闭门学习交流,并不对外开放。但我们也整理了一些现场讨论的精华内容进行发布,希望对你有所启发。

  Show Notes

  1. 跨尺度建模是 AI for Science 的最重要应用之一,它可以既快又准地学习微观的模型,然后做出和宏观速度差不多的计算和仿真。

  2. AI for Science 已经在药物研发、材料研发方面发挥作用,同时也在给下游的应用学科带来突破。

  3. AI for Science 的真正落地将会让工业生产向前迈进一大步,同时带来更多前所未有的机会和空间。

  4. 未来十年,我们或许会看到 AI for Science 帮助科学家发现更多复杂系统(如生命科学)的科学规律。

  01

  什么是 AI for Science ?

  简单来说,AI for Science 有三层内涵:

  第一是科学规律在具体的行业应用中的落地,用 AI 求解复杂系统的问题。

  第二层 AI 是发现新科学的有效的手段,能够帮助人类从大量的复杂数据中,去抽取一些人类观察不到的高维信息和高价值规律。比如基因序列、蛋白序列背后的高维特征。

  第三,AI for Science 让科学更加走向理性。我们过去很多对产业问题的分析,都是先看这个领域都没有数据。但在未来,大家一方面可以看有没有数据,另一方面可以看有没有好的物理规律做支撑。我们可以先用 AI 去学习物理模型,学习一些特定的规则,进一步结合一些小的数据去解决实际问题。

  02

  跨尺度建模,兼顾

  算的「快」和「准」

  从不同的时间和空间尺度上来观察世界,发现的现象是不一样的。 越是大的东西,它运动的频率越低;越是微观的运动频率越高,动得就越快。

  微观下看,当计算分子间或者原子间相互作用时,原子之间相互作用可以抽象为几种简单的作用力。比如原子之间有一个化学键,它的键能是多少,碳氧键的键能是多少?化学键和化学键之间会有键角,它们之间相互的能量空间是多少,二面角的空间是多少?离得比较远的静电相互作用和泛化相互作用,它的空间是多少?……这样形成了一系列的经验,就能分析原子间的相互作用。

  在每一个尺度上观察时,我们都是在观察这个尺度上的现象,它还会有一些随机性。

  引入更微观的参数后,就能够以第一性原理精确地求解里面的问题;但对应的瓶颈是:一旦引入更微观层面的参数,计算就会变得非常复杂,进入「维度灾难」

  (注:维度灾难指复杂系统的计算中,随着维数的增加,计算量呈指数倍增长的问题)。

物质结构:分子 | 图源:新浪网

  如果我们改用宏观尺度的模型去计算物体的运动,就能算很快,但是通常会算不准。我们如果想算得准,就得引入更微观的模型,但这样计算量太大,算不快。

  所以 AI for Science 就是要解决计算时「快」和「准」不可兼得的问题。我们用 AI 学习微观的、电子层面的模型,然后去求解更宏观的、原子间的基础作用。这是 AI for Science 最重要的应用之一,即跨尺度建模。

  03

  AI for Science

  正在如何发挥作用?

  利用 AI 学习分子动力学方程的这套方法,在药物发现方面可以辅助靶点发现、先导化合物筛选等环节;在材料方面可以帮助高分子材料、柔性材料、液晶材料的研发,同时也给下游的应用学科带来突破。

  人体所有疾病的发生,几乎都可以归结为蛋白质功能的异常,例如蛋白质表达过度或抑制。 所以,人为地抑制或激发蛋白靶标,改变蛋白质的功能,就可以达到治疗疾病的目的。药物分子和蛋白质的组合,就像是锁和钥匙的关系。

  药物研发的步骤一般是:蛋白结构解析 - 蛋白动态探索 - 药物分子发现 - 药物活性优化 - 成药性优化。

  确定一个蛋白靶标后,我们需要了解它的三维结构,才能设计一个药物分子来和它结合;还要知道蛋白质的动态机理,因为蛋白质的所有作用都是由它的动态结构决定的。

  这是一个酶的三维结构图(GIF),红色的位置是它催化的口袋。当一个底物放进去之后,在里面经过磷酸化再出来,就完成了一个催化的反应。所以这个口袋必须要会动,而且我们必须要了解它是如何运动的,才能够理解它的功能。

  AI for Science 驱动药物的研发 | 图源:深势科技

  药物筛选环节中,过去依赖的是高通量的重复式实验,可能要花费一两年时间,进行几百万次实验才能得出结果。而现在,我们可以通过大量的计算来筛选出 50 - 200 个合适的药物分子,再用实验进行验证。

  蛋白质的动力学模拟方面,我们能够从动态上预测蛋白质的构象变化。我们把这部分算法由过去的 CPU 计算潜移到了 GPU 上,并且进行了数据和计算的并行。最终,我们在保持精度的同时把速度提升了 1600 多倍,在几天之内就可以计算十几亿个分子,实现更加快速的筛选。

  在药物的其他方面预测上,我们采用的方法是先进行无监督的学习,然后再通过微调(fine tune)进行二次有监督的训练。这种方法解决了药物研发中某些领域数据量少的问题,例如药物的吸收分布、代谢毒性等。

  药物分子和蛋白质的特性基本都是由三维结构决定的。因此,只要 AI 能够抓取到三维结构的特征,理论上就可以建立起可用的模型。

  但在很多科学问题的研究中,由于数据少、特征难以提取等原因,AI 很多时候无法提取出关键特征并建立模型。这个时候,就可以通过小规模的 AI 预训练来解决这样的问题。

  这种方法不仅解决了小数据带来的问题,同时也为科学规律的发现提供了一种新的可能性。

材料的中心法则 | 图源:深势科技

  在材料方面,我们关心的是材料在现实场景中服役的表现。服役表现主要是由材料的性能决定的,而性能又是由微观结构决定的。要想研究出一种好的材料,一定会涉及到多尺度的结构方面的计算。

  由于要跨越不同的物理尺度,很多问题都无法用单一的模型去解决。例如,微观上我们可以模拟电子的性质,宏观一点可以模拟电子的密度,但是很难模拟电子间的能带结构和相互作用,因为这个规模是处在电子性质和密度之间的。

  还是那个问题:从微观角度计算能够算的准,但不快;而从宏观角度计算能够算的快,但不准。 AI for Science 可以既快又准地学习微观的模型,然后做出和宏观速度差不多的计算和仿真。

  同药物研发一样,第一步先把材料的服役性能抽象成一些特定的材料性质,例如它的基础性质、稳定性、可加工性。有了这些性质 profile 之后,再把它转化成可以用物理模型计算的科学问题。

  然后,我们对材料进行多级计算的筛选,最后把它放到实际的复杂系统中测试。例如,一个半导体材料筛选出来之后,我们还要把整个半导体器件都仿真出来,看看它的性能到底如何。

  实际的研发案例中,这个过程其实是一种材料的逆向设计。即从现实需求反推到性能,再找出对应的结构和组分。

锂电池固态电解质组分研究 | 图源:深势科技

  上图是我们通过计算发现的一个新的锂电池的固态电解质组分研究。对于电池,我们主要关心的是稳定性和电导率这两个性质。

  左侧的红色的三角形显示的是稳定性,蓝色的部分就是组分稳定性比较好的组合;右边绿色的三角形显示的是电导性,深色的部分就是电导率比较高的组合。我们要做的就是,找到这两个性能都比较好的,即蓝色和深绿色重合的部分。

  从图表中可以看到,计算得出的结果(蓝色圆点)和实验结果(红色区间)是完全重合的。而过去的计算误差则十分大,完全没有落在红色区间内。

  目前,深势科技在材料部分主要会从新材料切入,最终服务于新能源、信息技术和先进制造这些领域。

  深势科技已推出 Hermite® 药物计算设计平台、Bohrium 微尺度科学计算云平台等微尺度工业设计基础设施,颠覆现有研发模式,打造了「计算指导实验、实验反馈设计」的全新范式 | 图源:深势科技

  04

  在更多复杂系统,

  AI 将帮助发现科学规律

  总结一下,AI for Science 最值得期待的两大机会在于:包括药物设计和材料设计在内的新一代工业软件;另一方面则是像流体、固体等非常复杂的工业系统。AI for Science 的真正落地将会让工业生产向前迈进一大步,同时带来更多前所未有的机会和空间。

  信息科学中的 AI for Science | 图源:北京科学智能研究院 & 深势科技

  生命科学本质上也是一个复杂系统。但在生命科学领域,尤其是在人体的层面,还有很多问题无法被翻译成化学问题。例如,我们现在已经清楚地了解蛋白质的结构、蛋白质的动力学、蛋白的相互作用,但细胞生物学到分子生物学之间的 gap 目前还无法解决。

  在未来,生命科学领域可能需要摸索出一系列最基础的运行法则和规律,类似化学中的元素周期表。这样,我们就可以从最微观的层面对生命活动做出一些底层的解析。

  同样,材料学中很多问题也缺少规律和原理的指导。例如,微观上,材料的塑性形变和缺陷是由一些位错形成的,其中的原理可以靠量子力学和分子动力学来研究。但中间层的科学机理到底是什么?其中的定律尚不清楚。

  在这些复杂系统领域,AI for Science 的愿景是要帮助科学家发现这些科学规律。在未来的十年之内,我们期望能够看到这一方面的突破性成就。

  最后,引用一下黄仁勋今年的一句话,非常令人触动:AI 的未来一定是要学会规律和物理法则,实现这一点,将把我们带入 AI 的新时代。这句话和 AI for science 的愿景非常契合。

  Q&A 精选

  Q1: AI for Science 似乎不只是可以运用在科研,它带来的是一种技术的变革。那么它的边界究竟在哪里?

  孙伟杰:边界确实不止于在科研。药物研发、材料研发目前在微观层面上是更加适合 AI for science 方法的领域,但这种方法论其实在未来可以延展到更多的领域。

  除了刚刚提到的两种微观尺度的计算模拟上, AI for Science 在宏观尺度上也有很大的潜力。例如在复杂流体的模拟、天气预报上,AI for Science 其实可以发挥出更大的作用。对于它的边界到底在哪,可能还需要更长的时间大家共同去探索。

  Q2:AI for Science 的开发需要对 AI 和基础科学都有很深的了解吗?

  孙伟杰:是的,需要对 AI 和细分领域的基础学科都有深度了解,这一点非常重要。其实,现在 AI 作为一个工具其实越来越成熟,使用 AI 辅助科研也越来越容易了。以前,我们说科技会在一些 feature 的层面去做创新,而现在的趋势是要往底层去走。通过 AI,我们可以在底层实现一些革命性的变化。

  Q3:AI for Science 的商业模式是怎样的?

  孙伟杰:商业模式是一个动态的问题,要针对不同的用户群体和不同的市场。

  AI for Science 在科研领域、高校、学者的中其实已经有了一定的发展,这些人群自己本身就有非常强的开发能力和使用工具的能力。过去大家做科学计算都是用一些开源软件,甚至自己就做很多二次开发。所以,对这类用户,深势科技是把这些工具打造成 SaaS 提供给他们。

  但是工业界传统的研发模式不是这样的,很难把最新一代的工具用起来,所以 SaaS 这套方案行不通。

  在做材料研发和药物研发方面,深势科技主要是通过 IP 授权的方式,把产品真正做出来,出售给制药厂和材料厂商。比如,我们会把药物的分子或材料的配方研发出来,申请专利,把它 license 出去。商家直接拿着我们的研究到一半的分子,接下来去做就可以了。

  图源:北京科学智能研究院 & 深势科技

  *头图来源:视觉中国