清华姚班MIT计算机博士入局AI制药风 - 网络成瘾症

TUhjnbcbe - 2024/10/5 18:08:00

近日，雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为主题，邀请百图生科、剂泰医药、未知君、望石智慧、英矽智能、星药科技六家先锋企业，举办了一场线上云峰会。

作为此次活动的演讲嘉宾，星药科技创始人CEO李成涛，以《人工智能在小分子药物研发中的应用》为题，对星药科技的AI新药平台做了介绍。

李成涛表示，总结来看，AI制药主要就包含两类问题，首先是分类与回归，知道一个新分子到底有怎样性质，其次是生成与设计，找出那些是好分子，那些是不好的分子。

目前人类已经探索出的化合物空间大概是-，但适合成药的成药化合物大概是，这就像一个巨大的宇宙，我们知道的只有一个小太阳系，甚至是小地球。在这种情况下，人工智能这样的工具如何突破原有思维定式，找出比传统人类方法更好的分子，就成为了关键。

以神经网络的黑箱问题为例，人们往往认为人工智能不可解释，在AI制药研发当中，星药科技引入了信息瓶颈和剪枝技术，让黑箱问题变得更加可视化。

也就是，把分子丢进AI制药模型之后，不仅可以告诉我们毒性好不好，还可以找出是哪一个模块或哪一个基团导致。

把这个结果和图像信息拿给药物化学家判断，就可以知道分子是不是遵循思路，描述是不是契合科学原理，当分子不够理想的时候，也能知道是哪部分原因，从而可以有针对性的进行改结构。

像这样的路径和方法，在创新分子研发、找新可专利分子、分子衍生跃迁中都有极大的帮助。

以下是演讲全部内容，《医健AI掘金志》做了不改变原意的整理和编辑：

非常感谢大家留出时间参与这场活动，也非常感谢雷锋网的组织，能让我有机会和大家分享一下公司在人工智能以及小分子药物研发应用做的一些工作。

首先自我介绍一下，我是李成涛，年至年本科就读于清华姚班，年去麻省理工学院攻读博士学位。

自己的背景是计算机与人工智能的方向，但在波士顿接触了很多做药物研发科学家们，了解到很多与药物研发相关的应用，所以觉得人工智能在小分子药物研发上是有用武之地。

在获取博士学位后，我创办了“星药科技”，主要通过人工智能加速小分子药物研发。

在这里与大家简单介绍一下，具体如何去做的，以及这个领域有哪些痛点，同时人工智能是如何协助解决这些痛点。

演讲分为如下几块：

1、简单讲讲新药研发的整个流程，以及面临的挑战；

2、人工智能是如何与新药研发结合，并加速整个新药研发流程；

、小分子药物研发流程，即每一步该怎么做，如何通过人工智能算法提速整个流程；

4、技术总结与领域展望。

一、周期长、成本高，新药研发难题待解

首先讲讲新药研发面临的挑战。

众所周知，新药研发其实具有长周期的特点。我们简单把新药研发流程分为两大部分：

一是临床前阶段，包括早期化合物的发现、化合物的优化，所有的工作都是我们在人体外进行的，包括设计小分子之后，根据小分子在细胞、小鼠甚至猴子上做的一些验证实验，去观察这个小分子是否能够达到我们想要的效果。

临床实验之后，分子就可以进入临床实验阶段，在人体上进行一些实验。临床实验本身又分为一期、二期和三期，分别能够观察药物本身的毒性、有效性以及大规模人群中应用的具体效果，如果通过临床三期，药物就可以获批上市。

但整个流程下来，过程非常漫长，总耗时达到了9-15年的时间，而临床前时间会花费4-7年，剩余就是临床实验时间。另外流程成本极高，平均一款新药从源头开始，到药物正式上市总成本是非常之高。

但这样一个成本极高、耗时极长的业务，回报率却相当低，这归因于每个步骤低成功率。

刚才提到临床和临床前阶段，成功率都低于10%，所以整体概率低于1%。

如果我们做了个项目，可能最后只有1个项目成功，甚至没有一个结果，造成极低投资回报率。作为参考，在美股熔断之前我们进行投资的话，每年回报率大概是10%，但新药研发回报率大概为1.8%，可以想象这是一个不太优质的投资标的。

这也说明这个行业面临各种各样痛点，新药研发耗时长、成本高、回报率低特点，那星药科技能够提供什么样的解决方案呢？

二、AI，能为新药研发带来什么？

首先是技术层面。每一个新药研发前期的模块上，例如虚拟筛选，我们的HitRate能比传统方法高出十数倍；包括一些小分子预测；还有可合成性筛选上，这在本质上解决了一些新药研发难点，同时极大缩短了从靶点开发，到临床前候选药物所用的时间。

4-7年或许能够将它压缩至1-2年，甚至一年以内。最终我们通过人工智能算法和算力，可以支持多条管线并行进行，也就是用同样的时间，同样成本，能够做到更多条管线。

其中一个药物研发的项目即是一个管线，如果我们可以支持多条管线同步进行，对药企而言，我们就可以布局更多管线，做更多尝试，这一点对整个产业界都是至关重要。

简单谈一下，人工智能和新药研发到底是如何结合？人工智能近几年迎来一次爆发式增长，尤其是在年之后，即AlexNet之后各种各样模型、算力以及数据都获得长足进步。

以ImageNet为代表的整体数据规模提升，加上英伟达为代表基于GPU算力提升，还有模型复杂度质的提升，为模型本身能力带来新飞跃。

这些提升让整个人工智能领域各式应用喷薄式增长，这边列举几个典型案例。

例如医疗影像，我们可以用AI辅助医生CT影像、X光影像诊断；例如无人车，GoogleWaymo、小马智行也都做得非常棒；

最后是AlphaGo，相信大家并不陌生，-年，大家都不看好AlphaGo可以打败李世石，但它做到了。

这些事情非常震撼，证明某些情况下人工智能比人类更好，即使是在一些人类已经钻研或者学习了上百年领域。

那AI在医药领域到底有什么样的应用呢？

刚才讲到，医药研发分为临床前研发和临床研发两部分，AI对两部分都可以提供对应作用，这里面分为不同Modality，即不同药物形式：有小分子，有大分子，有多肽，有PROTAC，有核酸类药物，包括最近Modena做的mRNA药物，也是一种Modality。

此外，临床实验设计上人工智能也能提供一系列帮助。

我们列举比较有代表性应用，包含活性预测，即小分子与蛋白质结合后，蛋白质活性是上调还是下调，这是非常重要的成药性参考指标；

还有ADME/T性质预测，即药进入人体之后，经过吸收、分布、代谢包括排泄对人体毒性有多强，所有这些性质预测，能够帮助很好判断小分子成药性质到底怎么样；

还有人工智能对药物晶型的预测，或者人工智能对药物制剂预测，解决了我们全行业的一个痛点。

所以整个小分子研发早期链条上，会发现很多不一样的应用，都可以用到人工智能。

今天简单讲讲人工智能怎么应用在小分子早期研发上，其中包含两个主要数据，一个是分子数据，一个是蛋白质数据。

为什么是这两个数据。首先因为小分子药物本身就属于小分子，所以分子数据非常重要；

对于蛋白质而言，因为小分子在体内发生作用机制大多会与特定蛋白质结合，调控蛋白质活性，以达到治疗疾病效果，所以小分子与蛋白质到底能不能结合，结合之后有没有生物活性，都是非常重要的指标。

其中对分子有很多种表达形式，例如一维描述符，或一维SMILESstring，把它变成序列，又或者变成二维数学意义上的图，每个原子作为一个节点，每个化学键变成图中的边。

还有三维方式，小分子在三维环境中会有各种各样torsion，包括各种各样奇怪结构、构象变化，这也非常重要。

说完小分子，还有蛋白质。

蛋白质一维可以表征成一个氨基酸序列；也可以表示二维contactmap，也就是距离图，代表三维结构中每一个氨基酸距离；再到三维，通过复杂折叠情况实现各种功能。

前一段时间大家