一種新藥從開發(fā)到獲得批準(zhǔn)平均成本為20億-30億美元,至少耗時10年。
這句話,藥物研發(fā)領(lǐng)域的人大概都聽累了。
為什么這么難?
1. 濕實驗昂貴而費時;
2. 初始化合物命中率低;
3. 臨床前階段的高損耗率。
今年3月,哈佛大學(xué)醫(yī)學(xué)院(HMS)的研究人員在《Nature》雜志發(fā)表了論文《An open-source drug discovery platform enables ultra-large virtual screens》,描述了一個叫做VirtualFlow的開源藥物發(fā)現(xiàn)平臺,能通過云端整合海量的CPU對超大規(guī)模化合物庫進行基于結(jié)構(gòu)的虛擬篩選,提高藥物發(fā)現(xiàn)效率。
論文作者Christoph Gorgulla稱,在一個CPU上篩選10億種化合物,每個配體的平均對接時間為15秒,全部篩完大概需要475年,而HMS利用VirtualFlow的平臺,調(diào)用160000個CPU對接10億個分子僅耗時約15小時,10000個CPU則需要兩周。

聽起來非常吸引人。
抱著給某CRO公司虛擬篩選的7.8億個分子,我們心里有點高興。
當(dāng)時,我們調(diào)用了云上幾萬個core來篩選,計算時長也僅花費了3-13個小時(每個Core上所需時間不一樣)。
限于算力,或者高效靈活地調(diào)用大規(guī)模計算集群的能力,當(dāng)前的虛擬篩選通常僅采樣百萬到千萬個分子,而事實上目前可用于藥物發(fā)現(xiàn)的有機分子已經(jīng)超過10的60次方。
注:濕實驗室(Wet Lab)主要靠的是做實驗,干實驗室(Dry Lab)主要是計算機模擬和計算。
HMS的論文主要論證了兩點:
1、虛擬篩選的規(guī)模越大,篩選的化合物越多,真陽性率越高;
2、線性擴展能力+云平臺=無限可能。
超大規(guī)模篩選可提高真陽性率
論文推導(dǎo)了真陽性率與所篩選化合物數(shù)量的的函數(shù)關(guān)系的概率模型,證明:化合物的最高打分隨著規(guī)模增加而提高。
作者分別從10萬、100萬、1000萬、1億、10億個化合物中進行了5次篩選,挑選了得分最高的前50個化合物進行對比,從圖中可以很清楚地看到篩選的規(guī)模越大,得分越高(位置越靠上)。

虛擬篩選規(guī)模可以通過兩種不同的方式提高初始命中的質(zhì)量:
1. 通過識別具有更緊密結(jié)合親和力的化合物,從而降低劑量,減少脫靶效應(yīng);
2. 通過發(fā)現(xiàn)具有更好的藥代動力學(xué)和/或更少固有細(xì)胞毒性的化合物。
為了驗證大規(guī)模篩選的準(zhǔn)確性,研究人員選擇了腫瘤研究領(lǐng)域熱門的KEAP1蛋白作為虛擬篩選靶點,對含有13億配體的數(shù)據(jù)庫進行了虛擬篩選。通過兩個階段的篩選,HMS選出了約1萬個打分優(yōu)秀的分子。
隨后,研究人員從成藥性、配體效率、化學(xué)多樣性以及獲取難度等方面在這約1萬個候選分子中挑選了590個苗頭化合物進行活性驗證,最終給出了兩個活性達(dá)到毫微摩爾級的代表性化合物iKEAP 1和iKEAP 2的多種實驗結(jié)果,驗證了VirtualFlow在對接10億以上分子量時的高效性。
線性擴展+云平臺=無限可能
可線性擴展的意思是說,處理器數(shù)量增加一倍,篩選能力也會增加一倍。
為了論證這一點,HMS在本地和云端均進行了測試:
本地計算集群LC1由18,000個CPU(分別為Intel Xeon和AMD Opteron處理器的不同型號)異構(gòu)組成;本地集群LC2上則有30,000個英特爾Xeon8268處理器。
云端則選擇了GCP和AWS,最多調(diào)用了160,000萬個CPU(作者并未闡述在云端使用的CPU型號)。實驗表明VirtualFlow在多種情況下均體現(xiàn)了良好的線性可擴展性,具體可看下圖(圖中并未描述平臺在AWS上的表現(xiàn))。

而這種近乎無限的線性擴展性意味著什么?
即便在今后的實際應(yīng)用中并行數(shù)百萬個內(nèi)核,VirtualFlow的性能效率也不會受到其他因素的拖累。如果你擁有一個300核的計算機集群,你可以在六周內(nèi)篩選1億個化合物,而如果你有1,000核,那么兩個星期內(nèi)就可以完成篩選。
這個開源的VirtualFlow平臺到底是個啥?
這個項目由哈佛大學(xué)醫(yī)學(xué)院牽頭,整體仍處于較新的階段。VirtualFlow平臺旨在利用超級計算能力并行篩選潛在的有機化合物結(jié)構(gòu),以尋找有希望的新藥物分子。

VirtualFlow平臺主要分為VFLP(配體制備)和VFVS(虛擬篩選)兩個模塊,VFLP負(fù)責(zé)分析目標(biāo)的化學(xué)空間構(gòu)型(圖中上半部分的藍(lán)色箭頭),再由VFVS根據(jù)事先預(yù)設(shè)好的靶點經(jīng)過一次或多次虛擬篩選之后,最終獲得先導(dǎo)化合物。
目前已知的平臺特性包括:
1. 用Bash編寫,完全開源、免費;
2. 目前支持的應(yīng)用包括:AutoDock Vina、QuickVina 2、Smina、AutoDockFR、QuickVina-W、VinaXB和Vina-Carb;
3. 暫時不支持GPU;
4. 支持AWS、GCP、Azure在內(nèi)的主流云計算平臺。
這很棒。
但開源平臺,不是你想擁抱就能擁抱。
VirtualFlow擁有較高的使用門檻,你可能需要懂點代碼,懂點調(diào)度器,再懂點集群,還要熟悉各個云平臺等等。

藥物研發(fā)向來是皇冠上的明珠,HMS這篇論文驗證了應(yīng)用云平臺的確能帶來新藥研發(fā)效率的提升,時間和金錢成本上的大量縮減。
中國人自己的創(chuàng)新藥+云,我們可以期待一下。
相關(guān)閱讀:
>> 【2020新版】六家云廠商價格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云
>> 2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領(lǐng)域年均復(fù)合增長率超21%
>> 上榜啦~花費4小時5500美元,速石科技躋身全球超算TOP500
速石科技致力于為 生命科學(xué)、 半導(dǎo)體、汽車/智能制造、高校科研、人工智能、互聯(lián)網(wǎng)金融 等領(lǐng)域的企業(yè)提供定制化的上云解決方案 。