
"結(jié)構(gòu)就是功能"——蛋白質(zhì)的工作原理和作用取決于其3D形狀。
2020年末,基于深度神經(jīng)網(wǎng)絡(luò)的AlphaFold2,一舉破解了困擾生物學(xué)界長(zhǎng)達(dá)五十年之久的“蛋白質(zhì)折疊”難題,改變了科學(xué)研究的游戲規(guī)則,可以從蛋白質(zhì)序列直接預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),實(shí)現(xiàn)了計(jì)算機(jī)蛋白質(zhì)建模極高的精確度。
自AF2問(wèn)世以來(lái),全世界數(shù)百萬(wàn)研究者已經(jīng)在瘧疾疫苗、癌癥治療和酶設(shè)計(jì)等諸多領(lǐng)域取得了突破。

2024年5月初,AlphaFold3再登Nature,基于Diffusion(擴(kuò)散技術(shù))架構(gòu),將技術(shù)延伸到蛋白質(zhì)折疊之外,能以原子級(jí)精度準(zhǔn)確預(yù)測(cè)蛋白質(zhì)、DNA、RNA、配體等生命分子的結(jié)構(gòu)及相互作用。
為了避免Diffusion技術(shù)在一些無(wú)結(jié)構(gòu)區(qū)域產(chǎn)生“幻覺(jué)”,DeepMind還創(chuàng)新了一種交叉蒸餾(cross-distillation)方法,把AF2預(yù)測(cè)的結(jié)構(gòu)數(shù)據(jù)預(yù)添加到AF3的預(yù)訓(xùn)練集中,減少AF3的預(yù)測(cè)失誤。
AF2代碼已開源,AF3目測(cè)不會(huì)開源,也不能商用。
我們今天的主角——只能是AlphaFold2。
想知道怎么使用AlphaFold2最最快樂(lè)?
怎么快速完成蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)任務(wù)?
我們能在背后幫你默默干點(diǎn)什么?
來(lái)吧——
01
先復(fù)習(xí)一下
AlphaFold2計(jì)算的正確打開方式
我們通常說(shuō)的AlphaFold2是指一個(gè)利用多個(gè)外部開源程序和數(shù)據(jù)庫(kù),通過(guò)蛋白質(zhì)序列預(yù)測(cè)其3D結(jié)構(gòu)的系統(tǒng)。
整個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)計(jì)算過(guò)程大致可以分為兩個(gè)階段:
一、數(shù)據(jù)預(yù)處理
包括多序列比對(duì)(MSA)和模板搜索(Template Search)兩個(gè)步驟,主要是利用已知的蛋白質(zhì)序列和結(jié)構(gòu)模板,獲得不同蛋白質(zhì)之間的共有進(jìn)化信息來(lái)提升目標(biāo)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性。
需要比對(duì)和搜索的數(shù)據(jù)總和達(dá)到了TB量級(jí),涉及數(shù)據(jù)庫(kù)密集I/O讀寫,因此對(duì)I/O有較高的要求。
這一階段主要使用HMMER與HH-suite軟件,以及Uniprot、MGnify、PDB等多個(gè)蛋白質(zhì)數(shù)據(jù)庫(kù)。計(jì)算耗時(shí)與蛋白序列長(zhǎng)度正相關(guān),主要使用CPU計(jì)算資源。
AF2訓(xùn)練數(shù)據(jù)集覆蓋多個(gè)數(shù)據(jù)庫(kù),比如UniRef90/MGnify/PDB/BFD等,目前完整版大小約為2.62TB,是世界范圍內(nèi)較為權(quán)威的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(kù)。2022年7月28日,Google DeepMind將數(shù)據(jù)庫(kù)從近100萬(wàn)個(gè)結(jié)構(gòu)擴(kuò)展到超過(guò)2億個(gè)結(jié)構(gòu),涵蓋了植物、細(xì)菌、動(dòng)物和其他微生物等多個(gè)類別。

二 、模型推理與優(yōu)化
基于端到端的Transformer神經(jīng)網(wǎng)絡(luò)模型,AF2輸入Templates、MSA序列和pairing信息,其中pairing和MSA信息相互迭代更新,檢測(cè)蛋白質(zhì)中氨基酸之間相互作用的模式,輸出基于它們的3D結(jié)構(gòu)。
再用OpenMM軟件對(duì)預(yù)測(cè)的3D結(jié)構(gòu)進(jìn)行物理放松,解決結(jié)構(gòu)違規(guī)與沖突。
使用Recycling(將輸出重新加入到輸入再重復(fù)refinement)進(jìn)行多輪迭代訓(xùn)練和測(cè)試,多輪迭代優(yōu)化有一定的必要性,較為復(fù)雜的蛋白可能在多輪之后才能折疊到正確的結(jié)構(gòu)。
這一階段計(jì)算耗時(shí)與迭代次數(shù)正相關(guān),主要使用GPU計(jì)算資源。
02
Workflow全流程自動(dòng)化
隨心組合,當(dāng)一個(gè)甩手掌柜
作為一個(gè)系統(tǒng),AlphaFold2借助了多個(gè)外部開源軟件和數(shù)據(jù)庫(kù),整個(gè)計(jì)算過(guò)程也比較復(fù)雜。
如果用戶想要自行使用,不但要下載龐大的數(shù)據(jù)庫(kù),還需要自行搭建使用環(huán)境,對(duì)IT能力的要求不可謂不高。
用戶看到的基本都是左邊這種畫面,我們能做的第一點(diǎn)——就是提供一個(gè)平臺(tái),把左邊變成右邊:

而第二點(diǎn),我們能跨越系統(tǒng)各個(gè)軟件之間,包括對(duì)軟件內(nèi)部的不同步驟任意重新排列組合,做成自動(dòng)化的Workflow。
一次制作,反復(fù)使用,省時(shí)省力,還不用擔(dān)心中間出錯(cuò)。
比如?
一 、多數(shù)據(jù)庫(kù)同時(shí)多序列比對(duì)(MSA)
多序列比對(duì)需要在多個(gè)蛋白質(zhì)數(shù)據(jù)庫(kù)里進(jìn)行查找。
常規(guī)使用模式,用戶要手動(dòng)依次在N個(gè)數(shù)據(jù)庫(kù)里進(jìn)行搜索,整個(gè)過(guò)程耗時(shí)等于N次搜索的時(shí)間之和。
我們可以讓不同數(shù)據(jù)庫(kù)的搜索同時(shí)進(jìn)行,并做成一個(gè)固定Workflow,自動(dòng)執(zhí)行,整個(gè)過(guò)程花費(fèi)時(shí)間將等于耗時(shí)最長(zhǎng)的數(shù)據(jù)庫(kù)搜索時(shí)間。既節(jié)約時(shí)間,又省事。

二 、全計(jì)算流程與資源自由組合
不僅僅限于某一個(gè)步驟,我們能做全計(jì)算流程的自定義Workflow。
上一節(jié)我們復(fù)習(xí)了,AF2第一階段適合用CPU資源,第二階段使用GPU計(jì)算效果最佳,每個(gè)階段還涉及到不同軟件包。
整個(gè)計(jì)算過(guò)程比較復(fù)雜,需要在不同階段的不同步驟使用不同軟件包調(diào)用不同底層資源進(jìn)行計(jì)算,手動(dòng)操作工作量不小。而且,常規(guī)使用模式,可能會(huì)從頭到尾使用一種資源計(jì)算,這樣比較簡(jiǎn)單,但是會(huì)比較吃虧,要么第一階段GPU純純浪費(fèi),要么第二階段慢得吐血,計(jì)算時(shí)間是原來(lái)的數(shù)倍。
我們能把整個(gè)計(jì)算流程與資源自由組合,讓用戶全程可視化操作,只需要輸入不同參數(shù)即可。既能實(shí)現(xiàn)應(yīng)用與資源的最佳適配,還能自動(dòng)化操作,省去大量手動(dòng)時(shí)間。

當(dāng)然,還有無(wú)數(shù)種其他組合的可能性。
不止是AlphaFold2,自定義Workflow也能應(yīng)用在其他場(chǎng)景,戳:1分鐘告訴你用MOE模擬200000個(gè)分子要花多少錢
03
掃清技術(shù)障礙
TB級(jí)數(shù)據(jù)庫(kù)與I/O瓶頸問(wèn)題
AF2訓(xùn)練數(shù)據(jù)庫(kù)完整版大小約為2.62TB,數(shù)據(jù)預(yù)處理階段需要在數(shù)據(jù)庫(kù)中執(zhí)行多次隨機(jī)搜索,這會(huì)導(dǎo)致密集的I/O讀寫。如果數(shù)據(jù)的讀取或?qū)懭胨俣雀簧?,就?huì)影響到整個(gè)計(jì)算過(guò)程的效率。
這可能會(huì)導(dǎo)致:
1. 同一任務(wù)多次計(jì)算,耗時(shí)卻不同;
2. I/O等待超時(shí),任務(wù)異常退出;
3. 即便增加CPU資源,也無(wú)法加速計(jì)算。
為了解決這一問(wèn)題,我們對(duì)整個(gè)數(shù)據(jù)庫(kù)做了梳理和拆分。其中最大的BFD數(shù)據(jù)庫(kù)接近2T,對(duì)I/O的要求非常高。
因此,我們將高頻I/O的BFD數(shù)據(jù)庫(kù)存放在本地磁盤,其他數(shù)據(jù)庫(kù)存放在網(wǎng)絡(luò)共享存儲(chǔ)上。

這帶來(lái)了兩大好處:
第一、磁盤空間換時(shí)間,計(jì)算速度更快
將高頻訪問(wèn)的BFD數(shù)據(jù)庫(kù)放在本地磁盤上,I/O讀寫速度快,非常適合需要快速響應(yīng)的數(shù)據(jù)。因?yàn)楸镜卮疟P是與機(jī)器綁定的,如果不止一臺(tái)機(jī)器,這會(huì)導(dǎo)致本地磁盤存儲(chǔ)空間增加。
而其他對(duì)I/O讀寫速度要求不高的數(shù)據(jù)庫(kù)可以放在網(wǎng)絡(luò)共享存儲(chǔ)上,方便所有機(jī)器共享讀取和寫入,減少數(shù)據(jù)同步問(wèn)題。
整體來(lái)說(shuō),用磁盤空間換取時(shí)間,讓I/O對(duì)計(jì)算的影響降到最低,顯著提升了AF2的運(yùn)算效率。
第二、為未來(lái)可能的大規(guī)模并發(fā)計(jì)算掃清技術(shù)障礙
關(guān)于這一點(diǎn),我們進(jìn)入下一節(jié)。
04
大規(guī)模并發(fā)!
同時(shí)預(yù)測(cè)100+蛋白質(zhì)結(jié)構(gòu)
對(duì)用戶來(lái)說(shuō),不可能一次只預(yù)測(cè)1個(gè)蛋白質(zhì)結(jié)構(gòu)。
那么,如果要同時(shí)預(yù)測(cè)100+蛋白質(zhì)結(jié)構(gòu),怎么玩?
如果是以前,你不但需要搭好運(yùn)行環(huán)境,準(zhǔn)備好計(jì)算資源,然后一個(gè)一個(gè)預(yù)測(cè),而且每一個(gè)還得手動(dòng)走一遍完整的計(jì)算流程。這個(gè)過(guò)程一聽(tīng)就十分漫長(zhǎng),而且容易出錯(cuò)。
而現(xiàn)在——
已知一:我們有Workflow全流程自動(dòng)化的能力,單個(gè)蛋白質(zhì)預(yù)測(cè)已經(jīng)是一個(gè)自動(dòng)化的Workflow了;
已知二:我們解決了I/O瓶頸問(wèn)題,也就是說(shuō),多臺(tái)機(jī)器對(duì)I/O讀寫瓶頸問(wèn)題已經(jīng)解決。
100+蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),又有什么難的?

現(xiàn)在,我們只需要再多做一步,同時(shí)運(yùn)行有100+個(gè)不同輸入?yún)?shù)的Workflow,就行了。而完成這一步需要具備兩個(gè)條件:
一 、充分的CPU/GPU資源
我們調(diào)用10萬(wàn)核CPU資源,使用AutoDock Vina幫用戶進(jìn)行了2800萬(wàn)量級(jí)的大規(guī)模分子對(duì)接,將運(yùn)算效率提高2920倍:提速2920倍!用AutoDock Vina對(duì)接2800萬(wàn)個(gè)分子
我們智能自動(dòng)化調(diào)度云端GPU/CPU異構(gòu)資源,包括155個(gè)NVIDIA Tesla V100和部分CPU資源,將運(yùn)算16008個(gè)Amber任務(wù)的耗時(shí)從單GPU的4個(gè)月縮短到20小時(shí):155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算
二 、調(diào)度器能力
這么多機(jī)器和任務(wù),怎么適配,按什么策略使用最佳,怎么配置、啟動(dòng)、關(guān)閉,提高整體資源利用率,最好還能自動(dòng)化管理、輔助管理決策等等,甚至怎么DEBUG,這需要的可不止是一點(diǎn)點(diǎn)技術(shù)。
詳情可戳:國(guó)產(chǎn)調(diào)度器之光——Fsched到底有多能打?
到這里,這100+蛋白質(zhì)預(yù)測(cè)任務(wù),就可以一次性跑完了。
05
V100 VS A100
關(guān)于GPU的一點(diǎn)選型建議
那么多GPU型號(hào),你選哪個(gè)?
市面上的GPU型號(hào)不少,性能和價(jià)格差異也很大。
我們選取了3個(gè)蛋白質(zhì),分別使用V100和A100進(jìn)行了一輪計(jì)算:

可以看到,對(duì)同一個(gè)蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測(cè),A100用時(shí)約為V100的60-64%。
而目前的市場(chǎng)價(jià),無(wú)論是小時(shí)租賃、包月預(yù)留還是裸卡買斷,A100至少是V100的2倍以上。
也就是說(shuō),A100是以2倍多的價(jià)格,去換取約三分之一的性能提升。
兩相比較,除非不差錢,我們推薦使用V100。
實(shí)證小結(jié)
1.AlphaFold2是一個(gè)系統(tǒng),涉及到很多數(shù)據(jù)庫(kù)和不同軟件,我們的Workflow全流程自動(dòng)化,讓用戶可以隨心組合,輕松上手蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè);
2.我們用磁盤空間換時(shí)間的手段,既解決了TB級(jí)數(shù)據(jù)帶來(lái)的I/O瓶頸問(wèn)題,也為大規(guī)模并發(fā)計(jì)算掃清了技術(shù)障礙;
3.fastone可支持多個(gè)AlphaFold2任務(wù)大規(guī)模自動(dòng)并行;
4.GPU也需要選型,我們推薦V100。
本次生信實(shí)證系列Vol.15就到這里。
關(guān)于fastone云平臺(tái)在各種BIO應(yīng)用上的表現(xiàn),可以點(diǎn)擊以下應(yīng)用名稱查看
Vina│Amber│?MOE│?LeDock
速石科技新藥研發(fā)行業(yè)白皮書,可以戳下方查看:
新藥研發(fā)37問(wèn)?│頂尖藥企AIDD調(diào)研
- END?-
我們有個(gè)一站式新藥研發(fā)平臺(tái)
集成行業(yè)應(yīng)用與自編譯軟件
支持AlphaFold、RoseTTAFold等常用AI應(yīng)用
可視化Workflow隨心創(chuàng)建、便捷分享
提供Zinc、Drugbank等開源/自有分子庫(kù)
CADD專家團(tuán)隊(duì)全面支持掃碼
免費(fèi)試用,送200元體驗(yàn)金,入股不虧~
證-底部-1024x517.png)
更多BIO電子書
歡迎掃碼關(guān)注小F(ID:iamfastone)獲取

你也許想了解具體的落地場(chǎng)景:
只做Best in Class的必?fù)P醫(yī)藥說(shuō):選擇速石,是一條捷徑
王者帶飛LeDock!開箱即用&一鍵定位分子庫(kù)+全流程自動(dòng)化3.5小時(shí)完成20萬(wàn)分子對(duì)接
1分鐘告訴你用MOE模擬200000個(gè)分子要花多少錢
155個(gè)GPU!多云場(chǎng)景下的 Amber自由能計(jì)算
提速2920倍!用AutoDock Vina對(duì)接2800萬(wàn)個(gè)分子
新藥研發(fā)平臺(tái):
今日上新——FCP
專有D區(qū)震撼上市,高性價(jià)比的稀缺大機(jī)型誰(shuí)不愛(ài)?
國(guó)產(chǎn)調(diào)度器之光——Fsched到底有多能打?
創(chuàng)新藥研發(fā)九死一生,CADD/AIDD是答案嗎?
全球44家頂尖藥企AI輔助藥研行動(dòng)白皮書
近期重大事件:
速石科技完成龍芯、海光、超云兼容互認(rèn)證,拓寬信創(chuàng)生態(tài)版圖
速石科技入駐粵港澳大灣區(qū)算力調(diào)度平臺(tái),參與建設(shè)數(shù)算用一體化發(fā)展新范式
速石科技成NEXT PARK產(chǎn)業(yè)合伙人,共同打造全球領(lǐng)先的新興產(chǎn)業(yè)集群
速石科技出席ICCAD2023,新一代芯片研發(fā)平臺(tái)助力半導(dǎo)體企業(yè)縮短研發(fā)周期
速石科技與芯啟源開啟戰(zhàn)略合作,聯(lián)手打造軟硬件一體芯片研發(fā)云平臺(tái)
