?人工智能+新药到底有多少实与虚,图片来自pratiks.info
导语:
人工智能(AI)高度依赖于高质量有标识的大数据,在一个生物学假说驱动、效率低下、试错为主的新药创新领域,毋庸置疑,这将会显著提升新药研发流程中某些阶段的效率。但不管自古英雄出少年的IT创业精英风起云涌,还是有数十年研发经验的医药界老兵坐观潮起潮落,都缺乏对人工智能+新药研发全面的理性认识。鉴于此,挂一漏万,笔者愿与大家分享我们对于人工智能+新药研发的观点和态度,分别从两个方面,理解疾病-影像诊断及生物学新机制/新靶点的发现,和设计药物-活性预测及化合物库的产生与合成,探讨人工智能在新药研发中的实与虚。
撰文
李伟(瑞璞鑫(苏州)生物科技有限公司)
黄牛(北京生命科学研究所)
责编
叶水送
● ● ●
1人工智能的崛起
天地玄黄,人类作为拥有NI(NaturalIntelligence)的生物,孤零零诞生于宇宙洪荒。从直立行走、刀耕火种、蒸汽电机、登月升空,到无处不在的互联网,人类在宇宙探索中实现了自我认知。从亚里士多德的形而上学,到牛顿的三大运动定律,再到爱因斯坦的相对论,这一切都闪耀于璀璨银河中。
?在这张图片上,深蓝战胜人类棋手,有人高兴,有人惊愕,还有人沮丧,图片来自thewire.in
作为万物之灵长的人类,不再满足于吃苹果获得智慧,而是期望在孤独的宇宙中创造出新的智能生命——人工智能(ArtificialIntelligence)。时光荏苒,年深蓝战胜国际象棋大师卡斯帕罗夫后仅仅20年,人工智能便横扫人类最复杂棋盘游戏——围棋。短短不到一年时间,人工智能的称号从籍籍无名的阿尔法狗(AlphaGo)变成无人不知的大师(Master),再进化到已不爱搭理人类,左右互搏、自我学习的“零”(AlphaGoZero)。
人工智能迅速蹿红,阿西莫夫的机器人“三定律”似乎已近在咫尺,不仅朋友圈里充斥着各种夸张报道和炒作宣传人工智能,如即将抢走人类饭碗的传闻,即使是严谨求实的学术圈、工业界也是热情洋溢,常有人言必称“我的朋友胡适之人工智能”,遑论永远盯着明天的投资界的追捧,大有一番“千红万紫安排著,只待新雷第一声”的气象。
?50年后,达特矛斯会议当事人重聚首,图片摄于年,图片来自Wikipedia
其实严格来讲,人工智能算不得“新雷”,它始于年的达特茅斯会议,已有60多年的历史,涵盖众多学科和技术,包括机器人学、语音识别、自然语言识别与处理、图像识别与处理、机器学习等等。之前虽也有潮起潮落,但并无大风大浪。近年来,得益于迅猛增长的计算能力、深度学习方法的引入以及大数据的兴起,这“三板斧”的推波助澜,人工智能在多个行业崭露头角,其中笔者所在的生物医药行业就是人工智能席卷的重镇之一。
?年,AlphaGo一经出现,就让我们对人工智能刮目相看,图片来自deepmind
面对目前这批风口上的人工智能公司,我们总归要问所有新兴技术都需要面对的终极问题:人工智能目前到底处在技术成熟度曲线(HypeCycle)的哪个阶段?人工智能能否正面PK当前可用的其它技术?在可预见的将来,人工智能究竟能做到什么样的程度?人工智能的征途可以是星辰和大海,但前行的补给却不能是画饼。缥缈的远景不是我们兴趣所在,毕竟DeepMind能否真的“Solveintelligence.Useittomaketheworldabetterplace”,比DeepThought告诉我们宇宙的终极答案是42——语出科幻圣经《银河系漫游指南》——要实际得多。
2人工智能进行疾病诊断,竞争还是合作?
在整个大的医疗领域,疾病诊断,尤其是医学影像(X射线、超声、MRI、CT和PET等)是人工智能比较得到认可的方向。年,Arterys公司的影像平台CardioAI成为FDA批准的首例人工智能辅助诊断工具,用于帮助医生分析心脏核磁共振图像,可自动化描绘图像中的心室轮廓线,并计算心室功能相关参数;随后其LungAI和LiverAI也陆续获得FDA的批准,用于辅助医生分析肺结节和肝脏损伤。今年2月份,Viz.AI公司的ContaCT也获得FDA批准用于分析大脑CT的扫描图像,用以发现与中风相关的信号(如可疑的大血管堵塞),及时通知医生。令人振奋的是,近日,FDA批准IDx公司的IDx-DR可独立用于初步筛查糖尿病视网膜病变,判断是否需要医生的进一步评估和诊断。
除了工业界的进展,学术界高水平杂志上人工智能影像相关的工作也屡见不鲜,年的JAMA和年的Cell都有人工智能在诊断眼科疾病如年龄相关性黄斑变性和糖尿病黄斑水肿的研究报道。简而言之,人工智能对疾病影像的识别有着较高的灵敏度和特异性,速度快和重现性也是人工智能的优势所在,医生群体都开始担心会不会被人工智能抢走工作。
人工智能在医学影像诊断方面的优异表现,其实一点也不意外,本来这一轮的人工智能浪潮的催化剂就是斯坦福大学教授、谷歌云首席科学家李飞飞的ImageNet。源于某些疾病的影像诊断有较为明晰的标识,以及足够的训练集,人工智能在影像数据集上能达到与医生不相上下的正确率。但现实环境会比文献或诸多人机PK大赛中严格控制的条件要复杂,虽然人工智能通过引入Dropout和DropConnect等算法来减少过度拟合,但数据多样性不足仍会导致人工智能存在偏向性,泛化能力不足,对罕见疾病更是束手无策。其次,当前的人工智能只能从事指定类型的智能行为,有诸多的适用条件和范围,譬如IDx-DR除了仍然需要专业人员操作眼底照像机获得高质量图像,而且需要在使用之前排除多种不适用状况,如持续性视力丧失、视力模糊、增殖性视网膜病和视网膜静脉阻塞等症状。再次,遇到某些模棱两可的疾病影像,就常常需要医生在读片时问诊病人及结合病人之前的病历报告来综合判断,这类需要根据医学常识进行逻辑推理判断的任务对人工智能而言似乎并不容易。在威诺格拉德模式挑战(一种代词消歧的自然语言问题,用于区分人工智能是基于常识来理解对话还是基于统计数据的猜测)中,人工智能溃不成军。最后,所有的人工智能工作只有遵循临床指南,才可能被医生群体所认可,譬如最像医生的IDx-DR擅长视网膜成像的图像解读,在年美国糖尿病协会对筛查糖尿病视网膜病变的立场声明中,视网膜成像属于证据分级系统的E级证据,而且FDA也明确表示病人在40和60岁以及有任何视觉问题时,仍然需要全套的眼科检查,更何况人工智能通过多层神经网络的黑匣子给出的结果并不令人放心。同时医学在不断进步,临床指南也会修改,有可能导致之前训练集的标识需要重新来过。数据标识工作可谓是劳动密集型工种,诸多类似富士康的雇佣大量人员,只是这些数据标识工厂并没有出现在光鲜的新闻上。医药类数据标识由于其专业性强,对标识人员的水平要求更高。人工智能医学影像肯定是未来的方向,医院作为医生的助手在多种疾病的诊断上提供真正有实用价值的参考性意见。只是目前的人工智能离媒体宣扬的“替代医生”还有很长的路途。
其实如果着力于人眼不可及的领域,也许是另一条可行之路,譬如把疾病诊断简化到分子水平。如果人工智能选择弥补人类缺乏的能力,而不是去和人类竞争,那被接受的概率和速度要大得多、快得多。我们知道,肿瘤的异质性很强,即使是看起来很相似的肿瘤形态,也可能有着不同的基因变异,此时病理学常无能为力。而且肿瘤的异质性也是导致新药研发缺乏针对性而失败的重要原因。近期,Nature杂志发表了一篇文章,一百多位科学家联合开发了一套基于中枢神经系统肿瘤DNA甲基化来进行疾病诊断和分类的人工智能,它与标准的诊断方法有可比性,而且更重要的是,因为完全基于不同的角度,这套人工智能还可以发现目前医学指南中未分类的肿瘤类型,为肿瘤的精准治疗和新药开发提供重要信息。
3人工智能能否颠覆新药研发?
与医学影像诊断相比,新药研发最大的特点在于大家时刻处于没有头绪的状态。如果有药物研发相关的新技术出现,不差钱的大药厂肯定非常乐意一试。不过这些新技术能否为新药研发的成功率带来革命性的提升?总体来看,很遗憾,基本上是没有;局部来看,某些技术在药物研发的某些阶段的确能够起到重要提速的作用,譬如已进入新药研发多年的高通量筛选和计算机辅助药物分子设计等曾经期待的“颠覆性”技术。究其原因,新药研发最大的坑是生物。整个药物研发进程,就是在验证某个靶点在人体中的生物学功能的过程。真正需要填充的大坑其实是优质靶点的缺乏,动物模型临床转化差和疾病异质性等。生物系统内在的复杂性,注定这是一个很难解决的问题。所以诸多媒体口中的人工智能无所不能,“提高新药研发成功率,引发制药革命”的赞誉之词得时刻警惕,泡沫破灭时,飞得越高,跌得也越重。
首先,人工智能能否预测一个化合物能成为药物?这个答案很可能是否定的,因为深度学习依赖于高质量、有标识的大数据集。目前只有大概个被FDA批准的新药(NatRevDrugDiscov.;16(1):19-34),远远谈不上大数据。而类似针对假肥大性肌营养不良(DMD)的药物Eteplirsen等,能否标注其为成功的新药,也需要打个问号。同时,不计其数倒在路上的化合物,也不能说就没有可能成为新药,如果能够寻找到合适人群和适应症,沧海遗珠也能镶上皇冠。这样看来,我们自己都没有闹明白什么样的化合物算是药物,加分罚分我们都无法给出明确的定义。与棋类游戏或者影像诊断相比,新药研发规则不明确,数据不明晰甚至含有错误信息,而且充满了高度不确定性,这给以高质量标识数据集为基础的深度学习人工智能带来巨大的挑战。
?药物发现的基本流程,图片来自tdi.ox.ac.uk
其次,人工智能在新药研发的各个阶段表现如何?新药研发是一个系统工程,从靶点的发现与验证,到先导化合物的发现与优化,再到候选化合物的挑选及开发,最后进入到临床研究,可谓是九死一生。目前,人工智能在新药研发的各个领域也的确是热闹非凡,诸多大型制药公司开始与人工智能初创公司开展合作:阿斯利康与Berg,强生与BenevolentAI,基因泰克与GNSHealthcare,默沙东与Atomwise,武田制药与Numerate,赛诺菲和葛兰素史克与Exscientia,辉瑞与IBMWatson等,各自合作的侧重点也有所不同,但主要集中于靶点的发现与验证包括生物标志物的发现(如何理解疾病)和先导化合物的发现与优化(如何设计药物)这两个领域。
4人工智能在新机制和新靶点发现上的应用
目前,常见的即利用人工智能分析海量的文献、专利和临床结果,找出潜在的、被忽视的通路、蛋白和机制等与疾病的相关性,从而提出新的可供测试的假说,以期望发现新机制和新靶点。药物靶点对于整个新药研发项目的重要性不言而喻,譬如胆固醇酯转运蛋白(CETP)让多少大佬折戟沉沙、马革裹尸,最后的“武士”——默沙东仍然惨淡谢幕;而PD-1又让多少人欣喜若狂、趋之若鹜,带动着整个生物大分子领域的快速飞升。
当前的新药研发缺乏优质靶点,已经是众人皆知的事实,一旦出现一个获得临床验证的新靶点,叠罗汉式的前仆后继并不鲜见,而在该靶点位于前列的公司估值也是高不可攀。在制药界这般尴尬的境遇下,志在寻找新靶点新机制的人工智能的出现,自然成了茫茫大海中的救生浮木,获得追捧,催生了诸多的生物技术公司。Berg基于人工智能的InterrogativeBiology平台技术通过分析海量病人和正常人样本(如蛋白相互作用网络)来寻找治疗疾病的新靶点和诊断疾病的生物标志物;GNSHealthcare基于人工智能的REFS技术分析海量的生物医学和医疗保险数据,为患者推荐最合适的治疗手段和药物;IBMWatson新药发现系统通过分析海量文献寻找潜在的关联性来产生新的假说推动新药研发;还有年初刚获得国内领投的美国公司EngineBiosciences,也是利用其人工智能技术来进行老药新用、新靶点开发以及精准医疗等。
但人工智能会比目前优秀的生物学家做得更好吗?先