"結構就是功能"——蛋白質的工作原理和作用取決于其3D形狀。
2020年末,基于深度神經網絡的AlphaFold2,一舉破解了困擾生物學界長達五十年之久的“蛋白質折疊”難題,改變了科學研究的游戲規則,可以從蛋白質序列直接預測蛋白質結構,實現了計算機蛋白質建模極高的精確度。
自AF2問世以來,全世界數百萬研究者已經在瘧疾疫苗、癌癥治療和酶設計等諸多領域取得了突破。
2024年5月初,AlphaFold3再登Nature,基于Diffusion(擴散技術)架構,將技術延伸到蛋白質折疊之外,能以原子級精度準確預測蛋白質、DNA、RNA、配體等生命分子的結構及相互作用。
為了避免Diffusion技術在一些無結構區域產生“幻覺”,DeepMind還創新了一種交叉蒸餾(cross-distillation)方法,把AF2預測的結構數據預添加到AF3的預訓練集中,減少AF3的預測失誤。
AF2代碼已開源,AF3目測不會開源,也不能商用。
我們今天的主角——只能是AlphaFold2。
想知道怎么使用AlphaFold2最最快樂?
怎么快速完成蛋白質結構預測任務?
我們能在背后幫你默默干點什么?
來吧——
01
先復習一下
AlphaFold2計算的正確打開方式
我們通常說的AlphaFold2是指一個利用多個外部開源程序和數據庫,通過蛋白質序列預測其3D結構的系統。
整個蛋白質結構預測計算過程大致可以分為兩個階段:
一、數據預處理
包括多序列比對(MSA)和模板搜索(Template Search)兩個步驟,主要是利用已知的蛋白質序列和結構模板,獲得不同蛋白質之間的共有進化信息來提升目標蛋白質結構預測的準確性。
需要比對和搜索的數據總和達到了TB量級,涉及數據庫密集I/O讀寫,因此對I/O有較高的要求。
這一階段主要使用HMMER與HH-suite軟件,以及Uniprot、MGnify、PDB等多個蛋白質數據庫。計算耗時與蛋白序列長度正相關,主要使用CPU計算資源。
AF2訓練數據集覆蓋多個數據庫,比如UniRef90/MGnify/PDB/BFD等,目前完整版大小約為2.62TB,是世界范圍內較為權威的蛋白質三維結構數據庫。2022年7月28日,Google DeepMind將數據庫從近100萬個結構擴展到超過2億個結構,涵蓋了植物、細菌、動物和其他微生物等多個類別。
二 、模型推理與優化
基于端到端的Transformer神經網絡模型,AF2輸入Templates、MSA序列和pairing信息,其中pairing和MSA信息相互迭代更新,檢測蛋白質中氨基酸之間相互作用的模式,輸出基于它們的3D結構。
再用OpenMM軟件對預測的3D結構進行物理放松,解決結構違規與沖突。
使用Recycling(將輸出重新加入到輸入再重復refinement)進行多輪迭代訓練和測試,多輪迭代優化有一定的必要性,較為復雜的蛋白可能在多輪之后才能折疊到正確的結構。
這一階段計算耗時與迭代次數正相關,主要使用GPU計算資源。
02
Workflow全流程自動化
隨心組合,當一個甩手掌柜
作為一個系統,AlphaFold2借助了多個外部開源軟件和數據庫,整個計算過程也比較復雜。
如果用戶想要自行使用,不但要下載龐大的數據庫,還需要自行搭建使用環境,對IT能力的要求不可謂不高。
用戶看到的基本都是左邊這種畫面,我們能做的第一點——就是提供一個平臺,把左邊變成右邊:
而第二點,我們能跨越系統各個軟件之間,包括對軟件內部的不同步驟任意重新排列組合,做成自動化的Workflow。
一次制作,反復使用,省時省力,還不用擔心中間出錯。
比如?
一 、多數據庫同時多序列比對(MSA)
多序列比對需要在多個蛋白質數據庫里進行查找。
常規使用模式,用戶要手動依次在N個數據庫里進行搜索,整個過程耗時等于N次搜索的時間之和。
我們可以讓不同數據庫的搜索同時進行,并做成一個固定Workflow,自動執行,整個過程花費時間將等于耗時最長的數據庫搜索時間。既節約時間,又省事。
二 、全計算流程與資源自由組合
不僅僅限于某一個步驟,我們能做全計算流程的自定義Workflow。
上一節我們復習了,AF2第一階段適合用CPU資源,第二階段使用GPU計算效果最佳,每個階段還涉及到不同軟件包。
整個計算過程比較復雜,需要在不同階段的不同步驟使用不同軟件包調用不同底層資源進行計算,手動操作工作量不小。而且,常規使用模式,可能會從頭到尾使用一種資源計算,這樣比較簡單,但是會比較吃虧,要么第一階段GPU純純浪費,要么第二階段慢得吐血,計算時間是原來的數倍。
我們能把整個計算流程與資源自由組合,讓用戶全程可視化操作,只需要輸入不同參數即可。既能實現應用與資源的最佳適配,還能自動化操作,省去大量手動時間。
當然,還有無數種其他組合的可能性。
不止是AlphaFold2,自定義Workflow也能應用在其他場景,戳:1分鐘告訴你用MOE模擬200000個分子要花多少錢
03
掃清技術障礙
TB級數據庫與I/O瓶頸問題
AF2訓練數據庫完整版大小約為2.62TB,數據預處理階段需要在數據庫中執行多次隨機搜索,這會導致密集的I/O讀寫。如果數據的讀取或寫入速度跟不上,就會影響到整個計算過程的效率。
這可能會導致:
1. 同一任務多次計算,耗時卻不同;
2. I/O等待超時,任務異常退出;
3. 即便增加CPU資源,也無法加速計算。
為了解決這一問題,我們對整個數據庫做了梳理和拆分。其中最大的BFD數據庫接近2T,對I/O的要求非常高。
因此,我們將高頻I/O的BFD數據庫存放在本地磁盤,其他數據庫存放在網絡共享存儲上。
這帶來了兩大好處:
第一、磁盤空間換時間,計算速度更快
將高頻訪問的BFD數據庫放在本地磁盤上,I/O讀寫速度快,非常適合需要快速響應的數據。因為本地磁盤是與機器綁定的,如果不止一臺機器,這會導致本地磁盤存儲空間增加。
而其他對I/O讀寫速度要求不高的數據庫可以放在網絡共享存儲上,方便所有機器共享讀取和寫入,減少數據同步問題。
整體來說,用磁盤空間換取時間,讓I/O對計算的影響降到最低,顯著提升了AF2的運算效率。
第二、為未來可能的大規模并發計算掃清技術障礙
關于這一點,我們進入下一節。
04
大規模并發!
同時預測100+蛋白質結構
對用戶來說,不可能一次只預測1個蛋白質結構。
那么,如果要同時預測100+蛋白質結構,怎么玩?
如果是以前,你不但需要搭好運行環境,準備好計算資源,然后一個一個預測,而且每一個還得手動走一遍完整的計算流程。這個過程一聽就十分漫長,而且容易出錯。
而現在——
已知一:我們有Workflow全流程自動化的能力,單個蛋白質預測已經是一個自動化的Workflow了;
已知二:我們解決了I/O瓶頸問題,也就是說,多臺機器對I/O讀寫瓶頸問題已經解決。
100+蛋白質結構預測,又有什么難的?
現在,我們只需要再多做一步,同時運行有100+個不同輸入參數的Workflow,就行了。而完成這一步需要具備兩個條件:
一 、充分的CPU/GPU資源
我們調用10萬核CPU資源,使用AutoDock Vina幫用戶進行了2800萬量級的大規模分子對接,將運算效率提高2920倍:提速2920倍!用AutoDock Vina對接2800萬個分子
我們智能自動化調度云端GPU/CPU異構資源,包括155個NVIDIA Tesla V100和部分CPU資源,將運算16008個Amber任務的耗時從單GPU的4個月縮短到20小時:155個GPU!多云場景下的Amber自由能計算
二 、調度器能力
這么多機器和任務,怎么適配,按什么策略使用最佳,怎么配置、啟動、關閉,提高整體資源利用率,最好還能自動化管理、輔助管理決策等等,甚至怎么DEBUG,這需要的可不止是一點點技術。
詳情可戳:國產調度器之光——Fsched到底有多能打?
到這里,這100+蛋白質預測任務,就可以一次性跑完了。
05
V100 VS A100
關于GPU的一點選型建議
那么多GPU型號,你選哪個?
市面上的GPU型號不少,性能和價格差異也很大。
我們選取了3個蛋白質,分別使用V100和A100進行了一輪計算:
可以看到,對同一個蛋白質進行結構預測,A100用時約為V100的60-64%。
而目前的市場價,無論是小時租賃、包月預留還是裸卡買斷,A100至少是V100的2倍以上。
也就是說,A100是以2倍多的價格,去換取約三分之一的性能提升。
兩相比較,除非不差錢,我們推薦使用V100。
實證小結
1.AlphaFold2是一個系統,涉及到很多數據庫和不同軟件,我們的Workflow全流程自動化,讓用戶可以隨心組合,輕松上手蛋白質結構預測;
2.我們用磁盤空間換時間的手段,既解決了TB級數據帶來的I/O瓶頸問題,也為大規模并發計算掃清了技術障礙;
3.fastone可支持多個AlphaFold2任務大規模自動并行;
4.GPU也需要選型,我們推薦V100。
本次生信實證系列Vol.15就到這里。
關于fastone云平臺在各種BIO應用上的表現,可以點擊以下應用名稱查看
Vina│Amber│?MOE│?LeDock
速石科技新藥研發行業白皮書,可以戳下方查看:
新藥研發37問?│頂尖藥企AIDD調研
- END?-
我們有個一站式新藥研發平臺
集成行業應用與自編譯軟件
支持AlphaFold、RoseTTAFold等常用AI應用
可視化Workflow隨心創建、便捷分享
提供Zinc、Drugbank等開源/自有分子庫
CADD專家團隊全面支持掃碼
免費試用,送200元體驗金,入股不虧~
更多BIO電子書
歡迎掃碼關注小F(ID:iamfastone)獲取
你也許想了解具體的落地場景:
只做Best in Class的必揚醫藥說:選擇速石,是一條捷徑
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化3.5小時完成20萬分子對接
1分鐘告訴你用MOE模擬200000個分子要花多少錢
155個GPU!多云場景下的 Amber自由能計算
提速2920倍!用AutoDock Vina對接2800萬個分子
新藥研發平臺:
今日上新——FCP
專有D區震撼上市,高性價比的稀缺大機型誰不愛?
國產調度器之光——Fsched到底有多能打?
創新藥研發九死一生,CADD/AIDD是答案嗎?
全球44家頂尖藥企AI輔助藥研行動白皮書
近期重大事件:
速石科技完成龍芯、海光、超云兼容互認證,拓寬信創生態版圖
速石科技入駐粵港澳大灣區算力調度平臺,參與建設數算用一體化發展新范式
速石科技成NEXT PARK產業合伙人,共同打造全球領先的新興產業集群
速石科技出席ICCAD2023,新一代芯片研發平臺助力半導體企業縮短研發周期
速石科技與芯啟源開啟戰略合作,聯手打造軟硬件一體芯片研發云平臺
HFSS(High Frequency Structure Simulator)是世界上第一款商業化的3D電磁仿真軟件。
由Ansoft公司在1990年開發并發布第一個版本。
2008年,Ansys收購了Ansoft,繼續開發HFSS等電子與電磁仿真產品,目標是解決整個工業體系中機械與電氣領域的持續融合問題。
現在的HFSS,已經成為天線、射頻RF或微波組件、高速互連、濾波器、連接器、IC封裝、PCB設計者必不可少的工具。世界各地的工程師使用 Ansys HFSS 軟件來設計通信系統、高級駕駛輔助系統 (ADAS)、衛星和物聯網 (IoT) 產品中的高頻高速電子設備。
HFSS作為一款以麥克斯韋理論為基礎的數值仿真計算工具,如何摸準TA的特性,借助計算機技術有效提升仿真效率,我們今天淺聊一下。
我們在藍箭航天案例中提到過,不同的CAE應用,對于底層資源的適配要求是不一樣的。
對于求解計算:
隱式算法,相對顯式算法來說,精度相對高。但可擴展性不是很好,即在多臺機器上的線性加速比并不好,適合在多核大內存機器上運行,一般對內存、IO要求比較高。
顯式算法,精度相比隱式算法低,但可擴展性更好,即在多臺機器上的線性加速比相對較好,適合于多節點并行計算,對機器無特殊要求,一般對內存、IO要求相對較低。
不同CAE業務場景的擴展性排序大抵如下圖所示,從上往下逐步提高:
HFSS作為計算電磁學的典型應用,在整個表的最上層,這代表其可擴展性低,適合高配、高IO的單機,性能越高越好。
這是由于兩方面原因造成的:
1. 網絡通信開銷大
2. 內存要求高
關于通信開銷,我們在Fluent實證和LS-DYNA實證中都提到過,隨著計算節點規模的增加,這兩個應用有著很明顯的節點之間數據交換造成的通信開銷,造成信息延時。
HFSS也是這樣,對網絡要求極高。隨著CPU核心數量的增加,帶寬優勢超過了核心效率。也就是說,堆機器不如堆網絡帶寬。
而在內存上的要求,跟算法、精確度十分相關,很大程度上取決于對需求與價格的取舍。
整體來說,HFSS對內存需求極高。根據我們的有限觀測,不同任務實際運行的CPU核數與內存比從1:5到1:23,差異巨大。單個任務對內存需求動輒幾百G,這類大內存機器放在整個行業都屬于稀缺資源。
而結合以上這兩種需求場景,網絡要求高,內存需求大,單臺大內存機器成為不二之選。
我們全新推出的FCC-E專有D區配置水平如下:
四大特點:
1. 專供超大內存裸金屬機器;
2. 全新三/四代機器,性價比極高;
3. 三個月起租,短期/長期租賃皆可;
4. 可動態拓展至通用C區。
超大內存裸金屬機器,最大4T內存,最高192核,完美滿足HFSS應用需求。
單機多核心,帶寬不是問題。
內存足夠大,無需工程師向精度與算法做妥協。
而且,資源足夠,價格感人,還不用長期持有。
在過去,如果企業不購買成本極其高昂的大機器,工程師就不得不對規模和難度大的設計“拆分組合”處理,將幾何結構分割成多個區域,到后期再合并結果。由于沒有考慮所有的電磁耦合,這種方法是極容易出錯的。
或者,工程師直接簡化模型降低精度,以減少計算量。
現在,情況不同了,HFSS在HPC高性能計算技術方面下了不少工夫。
方法一:在算法層面的持續優化與改進,提供針對多核機器優化的數值求解器與算法;
方法二:通過將HFSS與調度器集成,將多臺機器組成集群來求解大規模問題,不再受限于單臺機器的配置水平,滿足網絡帶寬要求就可以。
這兩種方法,工程師都能使用HFSS求解更大、更復雜的模型,而不會影響精度。
我們擅長的是方法二。
對研發工程師來說,使用集群有兩大好處:
一、提高了單人使用上限
我們把一臺臺獨立的單機集群化,也就是變成一個統一的計算資源池。在某種意義上來說,集群可以被看作是一臺大的計算機,集群中的單個計算機通常叫做節點,由這些節點合作完成用戶任務。
當用戶把一個集群當一臺大計算機使用的時候,單個用戶的資源上限由原來一臺機器的上限,變成了這個資源池的整體上限。
所以,HFSS對資源的高要求,由原來的一臺機器變成由這個資源池來整體滿足。
用戶可以將HFSS任務調度分布在多個計算節點上執行,也能通過在集群中劃分不同的仿真流程任務隊列及分配不同的資源隊列,并行執行多個CAE設計流程。
說人話就是,一個任務可以拆分多機跑,多個任務可以同時跑,來了大任務也不用擔心被一臺機器的上限所限制。
二、提高了團隊協作水平
單機模式下大家都是各用各的,缺乏協作,也沒有統一管理,無形中造成的溝通成本和損耗,其實并不小。
各種不同任務之間可能會出現資源爭搶,互相干擾。比如,兩個HFSS任務同時在一臺機器上跑可能出現內存告警。
而集群模式下:
我們根據不同業務團隊分工,為其在集群中劃分不同的獨立分區,這樣既保證了不同組的研發們能在同一個集群中工作,保留各自操作習慣,同時還互不干擾。
比如浙桂半導體的研發分為四個組,像元組的Sentaurus是搶資源大戶,往往他們的任務一上線,其他人就沒法用了。集群模式下的獨立分區可以很好地解決此類問題,戳這篇了解:【案例】95后占半壁江山的浙桂,如何在百家爭鳴中快人一步
同時,在建立起一套統一的使用規范基礎上,我們支持項目數據、用戶數據的統一管理和權限控制,不同業務團隊之間可以根據不同用戶權限共享計算、存儲、軟件資源等,整體上提高了整個團隊的工作與協同效率。
當然,除了研發工程師,對公司或團隊管理者和IT工程師來說,集群的好處就更多了。
這里不再展開,可以參考:從“單打獨斗”到“同舟共集”,集群如何成為項目研發、IT和老板的最佳拍檔?
一半時間畫網格,一半時間等仿真結果。
這恐怕是很多CAE工程師的日常。
HFSS的自適應網絡剖分技術,是在幾何結構和邊界條件網格自動生成的基礎上,根據電場梯度進行自適應網格細化和剖分,經過若干次迭代,給出滿足精度要求的結果。這一技術減少了求解所需的網格數量,大大降低了電磁場仿真的難度。
HFSS自適應剖分過程:自動生成初始網格,網格加密細化迭代,直到收斂。
整個過程完全自動化,無需人為干預。
這對廣大電磁場仿真工程師來說是非常大的利好,在減少工作量的同時降低了軟件的使用難度,讓工程師們可以將注意力完全放在如何得到好的仿真結果上。
接下來,讓我們換一個視角來看這個問題。
HFSS支持將整個自適應網格剖分過程通過調度器進行多步驟提交,我們的調度器Fsched提供的Auto-Scale功能與這個過程簡直是絕配。
最佳效果是分為三步:
第一步:初始網格生成,核數與內存需求很低;
第二步:網格自適應剖分,適度的核數與大量內存需求;
第三步:頻率掃描,核數與內存需求高。
三個階段需要的資源量差別很大。
同時,由于這一過程是自動的,很難提前預估內存需求。
對用戶來說,如果留的緩沖空間比較大,可能造成資源浪費,留的空間小了,任務可能運行失敗。
我們的Auto-Scale功能可以根據HFSS任務在不同步驟的實際需求動態開啟云端資源,自動使用較少的資源啟動網格生成,而用較大的資源進行第三步頻率掃描,并在任務完成后自動關閉。
為每個步驟分配不同的資源量,最大程度匹配任務需求,提升任務成功率,減少資源浪費。
更多應用場景可戳:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
從ANSYS HFSS 17.2開始,HFSS開始明確支持GPU加速。
一般來說,GPU可以加速可視化和后處理過程,提高工作效率。
是否選擇使用GPU對求解器進行加速,主要還是取決于算法本身是否合適。
最新的ANSYS 2024 R1用戶手冊顯示GPU加速主要在以下三種場景:
1. 頻域求解器
2. 時域求解器
3. SBR+求解器
GPU加速需要占用HPC License,ANSYS Electronics HPC高性能選項模塊同時支持CPU加速和GPU加速,1個HPC Pack可以啟用1塊GPU加速卡或8個CPU內核。
綜合對比硬件成本與運算效率,目前業界普遍認為使用GPU跑HFSS性價比不高。
實證小結
1. 網絡通信和內存要求雙高,一般來說,用HFSS跑3D電磁仿真首選大內存單機
2. 沒有大內存單機或者一臺不夠的情況下,通過把HFSS與調度器集成,將多臺機器組成集群來求解大規模問題,能幫助用戶求解更大、更復雜的模型;
3. 自適應網格剖分技術結合fastone研發平臺的Auto-Scale功能可提升任務成功率,減少資源浪費。
本次CAE實證系列Vol.14就到這里了。
下一期,我們聊Abaqus。
關于fastone云平臺在各種CAE應用上的表現,可以點擊以下應用名稱查看:
Bladed │ Fluent │ LS-DYNA │ COMSOL
速石科技工業仿真行業白皮書,可以戳下方查看:
仿真宇宙|評測篇(上)|評測篇(下)
- END -
我們有個一站式工業研發平臺
CAE/CFD仿真設計全流程覆蓋
Auto-Scale自動按需開關所需資源
任務一鍵提交,仿真結果可視化
自研DM工具,高效傳輸仿真數據
仿真成本自動統計、分析、優化
掃碼免費試用,送200元體驗金,入股不虧~
更多CAE電子書
歡迎掃碼關注小F(ID:iamfastone)獲取
你也許想了解具體的落地場景:
從“地獄級開局”到全球首款液氧甲烷火箭,我們如何助力藍箭沖破云霄
光電兼修的Alpha Cen,如何應對上升期的甜蜜煩惱?
這樣跑COMSOL,是不是就可以發Nature了
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
一站式工業仿真研發平臺:
專有D區震撼上市,高性價比的稀缺大機型誰不愛?
從“單打獨斗”到“同舟共集”,集群如何成為項目研發、IT和老板的最佳拍檔?
國產調度器之光——Fsched到底有多能打?
研發/IT工程師雙視角測評8大仿真平臺,結果……
八大類主流工業仿真平臺【心累指數】終極評測(上)
2023仿真宇宙漫游指南——工業仿真從業者必讀
近期重大事件:
速石科技入駐粵港澳大灣區算力調度平臺,參與建設數算用一體化發展新范式
速石科技亮相第五屆中國仿真技術應用大會,領航工業研發云平臺發展
速石科技出席ICCAD2023,新一代芯片研發平臺助力半導體企業縮短研發周期
速石科技作為特邀服務商入駐IC PARK,合力打造集成電路產業新生態
速石科技聯合電信、移動、聯通三大運營商,為國家數字經濟轉型注入新動力
Siemens的Calibre是業內權威的版圖驗證軟件,被各大Foundry廠廣泛認可。用戶可以直接在Virtuoso界面集成Calibre接口,調用版圖驗證結果數據,使用起來極為方便。
今天,我們就來聊聊這款軟件。
版圖驗證是芯片設計中非常重要的一環,一共包括三個環節。
DRC(Design Rule Check):檢查版圖是否符合Foundry廠的制造工藝規則,確保芯片能被正確生產出來;
LVS(Layout Versus Schematic):版圖工程師需要將畫好的版圖與原理圖對比,確保兩者所有連接保持一致;
寄生參數提取(Parasitic Extraction):將版圖中的寄生參數提取出來,在Virtuoso中反饋結果,前端工程師會進行后仿驗證,重新評估電路特性并進行修改,保證流片正確。
這三個環節分別由Calibre的DRC、LVS、PEX三種工具來完成。
Calibre任務有兩大特性:
1、重內存需求,2T或4T的超大型內存機器都有可能登場
版圖文件很大,需要處理的數據量非常大,但本身的邏輯判斷并不復雜,所以通常不剛需高主頻機型,但要求多核、大內存的機器。CPU與內存的比例通常能達到1:4或1:8,極端情況下這個比例會更高,2T或4T的超大型內存機器都有可能登場。
我們在下面兩篇文章里仔細盤過模擬&數字芯片設計全流程的業務場景、常用EDA工具、資源類型、算力需求、典型場景:
芯片設計五部曲之一 | 聲光魔法師——模擬IC
芯片設計五部曲之二 | 圖靈藝術家——數字IC
2、可拆分,無關聯,適合暴力堆機器
我們在模擬這篇文里寫過版圖驗證就像是一個“大家來找茬“的游戲。
在運行任務的時候,Calibre會把版圖切分成相互沒有邏輯關系的塊狀分區,這些分區之間彼此沒有相關性,互不干擾,所以可以同時進行。
切得越細,同時檢查的人更多,效率就越高。
三體里的切法大家還記得吧,一字橫切。
而芯片只能豎著切,可以十字切法。橫切會影響到芯片層與層之間的連接關系。
我們的全球資源池可以根據用戶需求在全球范圍內調度海量云端異構資源。GPU、TPU、FPGA,要啥都有。
其中,FCC-B產品提供準動態資源池,擁有行業特需的大內存機型,具有較低的整體擁有成本。而且,可以擴展到FCC-E使用彈性資源。
總之,大內存的機器,沒有問題。
那么,萬一不是一直不夠,是偶爾不夠怎么辦呢?
我們有一個小技巧,專門應用于這種內存峰值場景。
Swap,交換分區,就是在內存不夠的情況下,操作系統先把內存中暫時不用的數據,存到硬盤的交換空間,騰出內存來讓別的程序運行。
比如跑一組Calibre任務需要10小時,其中9個小時的內存使用量都在200G左右,只有1個小時達到了260G。
如果選擇256G內存的機型配置,任務必崩無疑。
但要是為了這1小時不到10G的內存溢出而全程使用512G的配置,成本翻倍,未免有點太不劃算了。
使用Swap交換分區就可以無縫填補這一空缺,非常匹配這種內存峰值場景。
Swap的具體使用案例,戳這篇:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
注意:此方法不適合長期使用,磁盤的速度和內存相比慢了好幾個數量級,如果不停讀寫 Swap,對系統整體性能有影響。
有了機器,下一步當然是要把它們利用起來。
Calibre默認支持單機多核并行跑任務,這意味著只要機器足夠大,就可以同時處理很多任務。
但是,當你的大機器不夠多,或者根本拿不到大機器的時候,就很苦惱了。
我們的方法是:將所有機器組成一個集群——多機多核的方式同時跑多個任務。
關于單機、單核、單任務、多任務、集群化、并行化進一步的定義與區別,可以看這篇:揭秘20000個VCS任務背后的“搬桌子”系列故事
集群自動化管理,少量大機器需要,大量小機器就更需要了。
為啥?
理由一,能方便地自動化運維整個集群
比如軟件安裝配置、資源監控、集群管理等工作,是需要IT一臺臺機器去逐一手動操作,還是鼠標點幾下就可以完成?
理由二,能快速方便地分配業務,提高資源利用率
比如,臨時需要將一批機器從團隊A劃撥給團隊B使用,有沒有什么辦法可以讓IT快速方便地進行配置?比如,因為資源使用的不透明和缺乏有序管理,會出現不同人對同一資源的爭搶,任務排隊等現象。同時,你會發現資源利用率還是不高。
自動化干活可太有必要了。
否則,那么多任務,那么多機器,需要多少雙手和眼睛才能忙得過來?
來,我們給你“手”和“眼睛”。
首先是我們的“手”——Auto-Scale功能。
來看一下本地手動跑任務與Auto-Scale自動化跑任務的區別:
基于我們自主研發的調度器——Fsched,Auto-Scale自動伸縮功能自動化創建集群,自動監控用戶提交的任務數量和資源需求,動態按需地開啟與關閉所需算力資源,做到分鐘級彈性伸縮,在提升效率的同時有效降低成本。
更多療效,戳這篇:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
有了“手”干活,還得有“眼睛”盯著防止出錯。
我們能多維度監控任務狀態,提供基于EDA任務層的監控、告警、數據統計分析功能與服務。
如果沒有這雙“眼睛”,可能出現哪些問題?戳這篇:【案例】95后占半壁江山的浙桂,如何在百家爭鳴中快人一步
未來我們還會有一篇文章專門討論EDA領域基于業務的監控功能,敬請期待哦~
你看,不僅可以自動化跑任務,還能時刻幫你盯著任務是否出錯。
先說結論:
我們在單臺大機器和多臺小機器組合場景下分別跑了同一組Calibre任務。
單臺大機器場景下,隨著核數的增加,任務耗時呈現明顯的線性下降關系,整體性能曲線非常貼近基準線(單機核數有上限,本次實證中,我們使用的最大單機為128核,并根據32核、64核、128核的耗時規律預估了256核單機的耗時數據,僅供參考)。
多臺小機器組合場景下,隨著機器數量的翻倍,任務耗時同樣線性下降,但在后期倍數關系上有所損耗,多機性能曲線略低于基準線和單機性能曲線。
實證過程:
1、使用fastone云平臺調度32核、64核、128核單機分別運行一組Calibre任務,耗時分別為14小時57分49秒、7小時30分28秒、3小時50分11秒;
2、按上條實證數據,預估使用fastone云平臺調度256核單機運行一組Calibre任務的耗時為1小時58分6秒;
3、使用fastone云平臺調度2、4、8臺32核機器分別運行一組Calibre任務,耗時分別7小時43分51秒、4小時6分14秒、2小時15分34秒。
在上一節中,我們使用的均為第三代英特爾至強可擴展處理器,而在2023年1月11日,英特爾正式推出了第四代至強可擴展處理器。
我們立馬搞來跑了一遍,為了對比參照,我們還拉上了第二代和第三代,并且把核數都按比例換算為48核。
實證過程:
1、使用fastone云平臺調度48核第二代英特爾處理器運行一組Calibre任務,耗時10小時46分26秒;
2、使用fastone云平臺調度48核第三代英特爾處理器運行一組Calibre任務,耗時9小時56分13秒,相比第二代提升7.77%;
3、使用fastone云平臺調度48核第四代英特爾處理器運行一組Calibre任務,耗時8小時18分43秒,相比第三代提升16.35%,比第二代提升22.85%。
可以看到每一代都有提升,且型號越新,提升幅度越大,三代比二代提升了7.77%,四代比三代提升了16.35%。
而在價格上,目前四代和三代的類似機型換算一下,幾乎是相同的。
1、Calibre DRC/LVS/PEX不剛需高主頻機型,但要求多核、大內存的機器,任務可拆分,適合暴力堆機器;
2、fastone云平臺的全球動態資源池、集群自動化管理能力、自動化跑任務并監控告警的功能可完美匹配Calibre的需求;
3、隨著計算資源的提升,Calibre的任務耗時呈現明顯的線性關系,其中單機整體性能曲線非常貼近基準線,多機效果后期會略有折損;
4、最新型號的處理器可以大幅提升Calibre的效率,可根據項目周期與實際預算綜合考量機型配置。
本次EDA云實證系列Vol.13就到這里了。
下一期,我們聊ADS,也可能是ALPS。看心情~~~
關于fastone云平臺在各種EDA應用上的表現,可以點擊以下應用名稱查看:
HSPICE │ OPC │ VCS │ Virtuoso
速石科技芯片設計五部曲,前三部先睹為快:
模擬IC│ 數字IC│ 算法仿真
- END -
我們有個IC設計研發云平臺
IC設計全生命周期一站式覆蓋
調度器Fsched國產化替代、專業IT-CAD服務
100+行業客戶落地實踐
支持海內外多地協同研發與辦公
多層安全框架層層保障
掃碼免費試用,送200元體驗金,入股不虧~
更多EDA電子書
歡迎掃碼關注小F(ID:iamfastone)獲取
你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
最強省錢攻略——IC設計公司老板必讀
芯片設計五部曲之三 | 戰略規劃家——算法仿真
芯片設計五部曲之二 | 圖靈藝術家——數字IC
芯片設計五部曲之一 | 聲光魔法師——模擬IC
【案例】速石X騰訊云X燧原:芯片設計“存算分離”混合云實踐
【ICCAD2022】首次公開亮相!國產調度器Fsched,半導體生態1.0,上百家行業用戶最佳實踐
解密一顆芯片設計的全生命周期算力需求
居家辦公=停工?nonono,移動式EDA芯片設計,帶你效率起飛
缺人!缺錢!趕時間!初創IC設計公司如何“絕地求生”?
續集來了:上回那個“吃雞”成功的IC人后來發生了什么?
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
速石科技成三星Foundry國內首家SAFE云合作伙伴
EDA云平臺49問
億萬打工人的夢:16萬個CPU隨你用
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
LeDock是蘇黎世大學Zhao HongTao在博士期間開發的一款分子對接軟件,專為快速準確地將小分子靈活對接到蛋白質而設計。
LeDock優于大部分商業軟件,在Astex多樣性集合上實現了大于90%的構象預測準確度,對接時間最快僅需三秒。
LeDock同時支持Windows、Linux和MacOS三大操作系統。
Linux版支持大規模虛擬篩選,需要通過代碼操作才能實現目標。
Windows版的圖形界面極大簡化了藥物化學家常見多重復雜的對接過程,但每次任務只能對接一個分子,效率極低,只適用于少量對接場景。
如果考慮到不少用戶還有分子庫相關的需求,無論哪種版本,對用戶來說,都有點難搞。
今天我們就通過一個LeDock實證來聊聊,怎么幫助大家愉快地(不寫代碼)提高大規模分子對接效率(少點手動),甚至還能解決一些別的問題(一些爽點),擴大實驗的空間和范圍,放飛研發人員的想象力。
科研這件事,還是需要有點兒想象空間的。
用戶需求
某藥企藥物化合部想使用LeDock進行20萬分子對接任務,但本地只有兩臺48核的工作站。
如果按Windows版的一對一串行對接模式,假設按1分鐘一個算吧,不吃不喝不睡不關機,也要對接138天。如果再加上中間出錯修改、參數配置、分子庫處理,無數次重復手動操作步驟,就,沒法算了。。。
如果用Linux版,這一時長就取決于兩個點:本地擁有的資源數量和IT能力的高低。
所以,他們有以下幾個問題:
1. 基于現實條件,怎么快速達成用LeDock跑20萬分子對接任務這個目標?
2. 能不能使用更友好的圖形界面來進行操作?甚至把一些工作流程固定,下次直接就能用,還可以分享給同事?
3. 能不能幫忙準備分子庫?
實證目標
1、能否讓用戶擁有Windows版和Linux版的雙重優點,不用寫代碼,也能實現大規模虛擬篩選?
2、LeDock任務能否在fastone云平臺大規模運行且效率顯著提升?
3、用戶很多常見復雜的手動操作,能不能自動化進行?
4、是否能為用戶提供開箱即用的分子庫?
實證參數
產品類型:
速石FCC-E產品
操作系統及應用:
LeDock Linux版
適用場景:
研究配體和受體(藥物分子)相互作用的模擬方法
云端硬件配置:本任務屬于CPU密集型任務,對內存的需求不高,因此我們選擇了高性價比的云端計算優化型實例(CPU/內存=1:2)。
用戶完整工作流程圖
用戶打開應用,提交蛋白質pdb文件,選擇分子庫文件和資源后,由fastone平臺進行分子對接并打分,用戶可直接查看結果,提取目標分子,進行下一步化合物研究。
實證過程
一、開箱即用,一鍵定位&加密的分子庫
1. 開箱即用的分子庫
對接開始前,用戶除了蛋白質pdb文件,還需要準備分子庫文件。分子庫大多來自海外,其本身的大小和數據質量,直接影響著后續虛擬篩選階段的命中率。對用戶來說,需要將分子庫從外網下載到本地,有些數據量動輒幾十T,如果還涉及分子結構從2D轉換到3D等復雜處理,運算量相當大,要么耗時間,要么耗錢。
我們已經準備好開箱即用的分子庫供用戶使用,包括:Zinc、DrugBank、Maybridge、Enamine等。
因為LeDock僅支持mol2格式,fastone平臺會在對接前,自動將sdf格式轉換成多分子mol2格式文件,同時完成拆分,使單個分子對應一個mol2文件。否則,直接把多分子mol2文件放進去對接,只會讀取第一個分子。
2. 一鍵定位&加密的分子庫索引系統
用戶篩選完分子后,還要在20萬個分子的原始庫里迅速定位并提取出來。這難度不亞于只知道書名但要在圖書館里找書,茫茫書海,大海撈針。
我們的分子庫索引系統就派上了大用場。
這套索引和圖書館索引系統類似,將原始分子名字通過加密轉換成唯一ID, ID相當于GPS定位,表示該分子在原始庫里的具體位置。
比如,某分子的唯一ID為“A-G22-18578”,即表示他位于分子庫A區G22柜的第18578個,可以輕松將分子提取出來。
這道索引系統相當于為原始分子庫做了一道數據加密和定位系統,除了用戶沒人知道最終提取出來的是哪些分子,既保護了數據的安全性,又讓用戶能迅速定位到某個分子。
二、云端大規模業務驗證
200000個分子上云
用戶使用fastone平臺,在云端調度768核計算資源,成功對接200000個分子,從中篩選出了300個分子,進行下一步的化合物研究。此次任務對接共耗時3.5小時,平均對接一個分子只需45S。
這里要說明一下,這個45S不是純分子對接時間,是包括了用戶的整個工作流程所有操作在內的。而且,不同分子之間的對接時長是不一樣的,時間會被對接得慢的分子拉長,無法直接橫向對比。比如用戶在進行3萬分子對接的時候,平均時長卻達到了90S。
實證過程:
1. 云端調度48核計算優化型實例運算一組LeDock任務(對接約200000個分子),耗時3262.6分鐘;
2. 云端調度96核計算優化型實例運算一組LeDock任務(對接約200000個分子),耗時1630.8分鐘;
3. 云端調度192核計算優化型實例運算一組LeDock任務(對接約200000個分子),耗時815.1分鐘;
4. 云端調度384核計算優化型實例運算一組LeDock任務(對接約200000個分子),耗時407.2分鐘;
5. 云端調度768核計算優化型實例運算一組LeDock任務(對接約200000個分子),耗時203.3分鐘。
從圖上可以看出,LeDock任務在云端的線性擴展性表現良好,當云端資源增加到768核之后,運算時間縮短到了3個多小時,極大地提升了運行效率。
即使當分子數量增加到2800萬這個量級,我們調用10萬核CPU資源,在AutoDock Vina這個應用上也同樣表現優秀,可參考《提速2920倍!用AutoDock Vina對接2800萬個分子》
三、自動,自動,全是自動
1. 單機模式VS并行化
我們把跑分子對接這個任務分成三種不同的IT難度等級 :
沒有難度:單機單CPU核,單任務。
中等難度:單機多CPU核,多任務。
王者難度:多機多CPU核,多任務。
想要對三種難度等級深入了解,看這里《揭秘20000個VCS任務背后的“搬桌子”系列故事》
如果按照“沒有難度”這個等級,200000個分子串行排隊,一個任務跑1分鐘,我們開頭已經算過了,基本沒什么現實可操作性。
我們直接將你帶飛到"王者難度",在n臺n核的機器上跑,效率提升n*n倍,理論上n可以無限大。這個數字用戶可以自行設定。
2. 一次設定,跑完20萬個任務
怎么把一些工作流程固定,不用一次次重新設定,下次直接一鍵使用。甚至還可以分享給其他同事,提高大家的工作效率?
到了速石傳統藝能項目—自定義模板出馬的時候了。
我們將用戶跑LeDock的工作流程固定成一套模板:
step 1:用戶提交蛋白質pdb文件;
step 2:用戶選擇sdf格式分子庫文件;
step 3:fastone平臺自動將sdf格式轉換為mol2格式分子庫文件;
step 4:fastone平臺自動進行多分子拆分;
step 5:fastone平臺將蛋白質、參數文件與mol2格式分子進行對接;
step 6:fastone平臺掃描所有已完成對接的分子,進行打分;
step 7:用戶查看打分結果;
step 8:用戶篩選并從分子庫里提取出分子,進行下一步化合物研究。
用戶在這個模板的基礎上,自行調整各項參數,就能按這個流程一路跑下去了。
一次設定,反復使用,省時省力,還不用擔心以后不小心出錯。
這套自定義模板不但能分享,還可以跨應用設定,可以展開看看《1分鐘告訴你用MOE模擬200000個分子要花多少錢》
3. 自動檢查文件完整性
這個自動檢查包括兩個部分:
第一,用戶上傳配置文件的同時,速石平臺內置的檢查程序,會自動檢查文件完整性。
每個步驟需要用到的文件量很可能不一致,如果用戶運行到第五六步了,才發現某個上傳文件有問題,應該會非常崩潰。
第二,對接完成后,我們會對完成打分的文件數和初始文件庫做日志校驗,看數據是否有丟失。平常情況下,用戶可能很難察覺。
在這種大規模任務下,自動檢查程序能大大降低用戶任務返工率,以及協助用戶判斷運行過程中是否有問題。有些問題靠人力可能無力檢查。
4. 兩種場景下的重復提交任務功能和自動監控告警
放著機器通宵跑任務時總會幻想:第二天一早,任務已經跑完了,完美。
現實是:任務才跑了10%。
任務出錯,進度條卡住,可能會有兩種情形:
第一種:每個任務之間獨立,彼此沒有關聯。
一般任務數量越多,失敗的任務數量大概率也會變多,比如對接1萬個分子,有可能會有50個失敗任務;20萬個分子,可能有1000個失敗任務。
第二種:每個任務間有明確的先后處理順序,必須從A任務按序跑到Z。
假如到F任務就失敗了,整個任務就此停滯,涼涼。
自動檢查任務狀態并對失敗任務及時重復提交的功能,就是這種場景的克星,尤其是第二種,不然等待著你的,大概就是通宵,同時睜大你的雙眼了。我們的任務監控告警功能,還會時刻監控任務狀態,通過IM及時通知用戶,任務出現異常或已經完成。
我們還見到過一種特殊情況,Amber用GPU跑任務速度快,CPU較慢,但使用GPU計算時存在10%-15%的失敗概率。一旦任務失敗,需要調度CPU重新計算。
能否及時且自動地處理失敗任務,將極大影響運算周期。如果想了解我們怎么應對的,請點擊《155個GPU!多云場景下的Amber自由能計算》
實證小結
1、LeDock 大規模云端篩選毫無壓力,運行效率呈線性顯著提升;
2、fastone平臺能提供開箱即用,且能一鍵定位&加密的分子庫;
3、fastone 能為用戶定制自定義模板,一次設定,反復使用,界面友好;
4、fastone平臺提供的自動化檢查程序和重復提交任務功能,極大降低用戶的工作量;
5、用戶在20萬個分子對接任務中,篩選出了300個分子,進行下一步的化合物研究工作。
本次生信行業云實證系列Vol.12就到這里。
關于fastone云平臺在其他應用上的表現,可以點擊以下應用名稱查看:
HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ MOE │ LS-DYNA │ Virtuoso│ COMSOL
- END -
我們有個生物/化學計算云平臺
集成多種CAE/CFD應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書 歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
Uni-FEP on fastone|速石科技攜手深勢科技,助力創新藥物研發提速
【大白話】帶你一次搞懂速石科技三大產品:FCC、FCC-E、FCP
從1998年發布首個版本至今,COMSOL一直在持續進化,如今它已經有了30多個針對不同應用領域的專業模塊,涵蓋力學、電磁場、流體、傳熱、化工、MEMS、聲學等專業學科,并可以將不同的物理問題關聯起來,方便研究不同物理過程之間的相互作用。
越來越多Nature、Science及其子刊論文都用到了COMSOL模擬。
今天我們以一個高校用戶為例,講講我們在COMSOL實際運用過程中,除了速度和效率的提升外,還幫他們解決了哪些問題?
比如:
Windows還是Linux?
這是個問題關于多機并行,有多少種不同的打開方式
一旦用了外部資源,比如超算,本地機器閑置了,就問你心不心疼?
本地環境維護,就問你操不操心?
老師的需求:既要,又要,還要,一把滿足,這真實嗎?
……
所以,現在可以發Nature了嗎(劃掉)
用戶需求
某高校課題組有5臺工作站,雖然機器比較老舊,但平時大家協商著劃分時間輪流跑任務,甚至還有排半夜的。整體來說,資源也勉強夠用。
最近該課題組新增了幾名成員,并申請到了幾個科研項目,需要使用COMSOL做大量仿真計算,這就直接導致了計算資源捉襟見肘。
現在的問題點主要有三個:
1、人多了,難管理,資源利用率整體很低;
2、他們也用過超算,但是資源是共享的,有隨時被搶走的風險,心里沒底,而且沒法跟本地連到一起來用;
3、本地的各種維護工作,應用升級,安裝配置等工作非常繁瑣,需要耗費大量時間手工操作。
實證目標
1、COMSOL任務能否在云端跑得更快?
2、fastone平臺的云解決方案能否同時利用好課題組的本地資源?
3、fastone平臺的資源能否提供更大的用戶權限?
4、fastone平臺能否將各種維護工作降到最低?
實證參數
平臺:fastone企業版產品
應用:COMSOL Multiphysics
場景:電磁場分析、風力發電機噪音分析、HVAC導管流線分布等
系統:Windows/Linux
云端配置:計算優化型實例/網絡加強型實例
架構圖:
實證過程
一、Windows還是Linux?這是個問題
COMSOL同時支持Windows和Linux系統的集群計算。用戶一直使用的是較為熟悉的Windows版本。
現在,讓我們默念三遍:Windows的世界,一切都要錢的。
單機跑的情況下,這不是什么大問題。但一旦涉及到多機多核運行任務,問題就大了。
比如:主流云廠商對不同操作系統鏡像有不同的定價方式。整體來說,通過Windows系統使用云資源價格比Linux系統要貴。
因此,使用Linux替換Windows也可以有效節省成本。
所有,都要錢。
總之,不是長久之計。
而如何從Windows系統轉換到Linux系統呢?
這就跟習慣了用Android系統的人,換成iOS一樣。一旦適應,操作就如絲般順滑。
為了確保這一點,我們支持用戶在Linux系統中使用圖形化界面操作COMSOL任務,用戶只需熟悉一下Linux的常用操作與工具(如瀏覽器、文本編輯器),即可在很短的時間內上手,操作習慣幾乎無需改變。
而這也為今后用戶在Linux上多機集群化跑COMSOL打下了省錢的基礎。
二、多機并行,不同的打開方式決定了運算效率 根據我們的經驗,COMSOL的情況與Fluent類似。
當核數較低時,性能提升與核數基本成正比;而當云端核數逐漸增加后,由于節點間通信開銷指數級上升,性能的提升會隨著線程數增長逐漸變緩。關于如何解決節點之間數據交換造成的通信開銷問題,可以參考Fluent和LS-DYNA這兩個應用實證:
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
下圖可以看到我們推薦用戶使用的網絡加強型實例對比計算優化型實例的效果。
基于Linux系統多機模式計算,在云端使用16-96核不等的計算資源運行兩組COMSOL任務,可以觀察到當計算資源線性增加時,任務耗時呈線性減少。
網絡加強型實例可以有效解決COMSOL任務通信開銷問題。
fastone平臺可以根據用戶需求和任務特性,為用戶推薦最適配的云端配置。
甚至,我們的Auto-Scale功能可以根據不同的用戶策略,比如成本最優還是時間優先,自動化跨區、跨類型為用戶調度云資源,完成計算任務。
至于不同策略具體怎么落地執行?
相比時間優先策略,成本優先怎么做到降低成本最多達67%-90%?
在這篇實證《生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》里體現得十分明顯。
而即便是比拼單機性能,由于云上機型更新速度快,相比課題組本地老舊的工作站單機性能也提升了超過三分之一。
關于單機和多機計算背后的詳細原理和意義,可以參考VCS應用實證《EDA云實證Vol.7:揭秘20000個VCS任務背后的“搬桌子”系列故事》
云上資源的更新有多快?看這篇《國內超算發展近40年,終于遇到了一個像樣的對手》
三、多人并行又是個什么東西?
多機并行有了,多人并行又是個啥?
如果在本地工作站場景,多人并行就是幾臺機器就是幾個人用唄。使用我們平臺,用戶數量和機器數量不再直接掛鉤。更不用說云端無限資源帶來的幾乎無限的人員擴容空間了。
這就不可避免地涉及到了權限和角色管理的問題。fastone平臺的權限和角色管理功能,支持管理員角色對每一個用戶進行相關權限設定,包括預算使用上限和CPU核數使用上限。
多機并行+多人并行,簡單來說就是,要啥有啥。
四、本地云端統一平臺,既不操心,又不心疼,還劃算,還簡單
1、當然是大大優化整體效率。
由于課題組在平臺上跑的應用遠不止COMSOL一種,fastone平臺可對不同應用、不同資源、不同成員的使用情況進行整體監控與評估,并為課題組提供合理化建議,極大地提升了整體效率。
2、本地工作站不再閑置,用滿不心疼
課題組導師覺得放著本地工作站不用簡直就是“浪費”。在獲取外部資源的同時,還是希望能夠將本地的工作站資源給充分利用起來,不然可太心疼了,畢竟當年也是花大價錢買來的。
我們為課題組提供了一個混合云平臺。
當用戶處理日常任務時,可以只在本地運行。
而當本地資源不足以應付時,直接自動連接云端海量資源進行運算,操作相當方便,完全不改變用戶的操作習慣。
3、本地軟硬件資源維護,不用操心
課題組的本地環境是需要持續維護的。有老師跟我們吐槽說,一天天地忙著維護環境,整得跟運維工程師一樣了,太耽誤事兒。想找學生幫忙吧,他們很多也不懂啊~老師們的碩博后們也苦不堪言,本專業要學的東西已經多到爆炸,又要理論還要搞實驗,還要學大量計算機專業知識……
我們的云上運行環境都是自動化配置的,不需要人工干預,用戶還可以通過平臺進行統一管理和監控,方便易操作。
五、超算,是完美的解決方案嗎?
1、超算資源是無法與本地資源做成一個整體平臺,統一管理的。所以,既沒有整體監控和管理,又沒有混合云,還沒有自動化維護。
當然,Auto-scale也肯定沒有。
下圖是開啟Auto-Scale功能后,用戶某項目一周之內所調用云端計算資源的動態情況。
2、不同于超算的共享模式,我們提供的是絕對不會被搶走的獨占資源。
這點可太重要了:
1)云資源在任何情況下都不用會被搶走。而超算由于要優先服務國家級科研項目,在某些情況下,即便已經分配到的超算資源,也有可能會被無條件收回;
2)可根據用戶的習慣和應用的特性自由選擇操作系統,沒有任何限制;
3)提供完全開放的管理員權限,應用安裝靈活,且fastone針對市面上常見企業級應用均進行過云原生優化,可隨時提供技術指導;
4)用戶可隨時安裝所需的依賴組件。
5)獨占資源,安全。
關于超算與云計算在整體規模、使用體驗、計費方式、商用門檻、更新周期、合作生態、云端支持等方面的全方位對比,可以掃碼添加小F獲取完整版白皮書。
實證小結
1、fastone平臺完美支持COMSOL的基于不同用戶策略的多機和多人并行,可大大提升任務效率;
2、fastone支持搭建本地云端統一的混合云平臺,完全不浪費本地資源,本地資源不足時自動溢出到云端,操作還簡單,提高整體效率;
3、fastone平臺提供獨占資源,絕不會被搶走,開放管理員權限,安全靈活;
4、fasonte平臺環境完全自動化配置,無需手動維護,省事。
本次CAE行業Cloud HPC實證系列Vol.11就到這里了。下一期的CAE云實證中,我們聊Abaqus。
高效、方便、安全、穩定、省錢……我們對于高校科研的提升遠不止于此,更多有關fastone高校科研云平臺的疑問與解答
請掃描二維碼添加小F微信(ID:imfastone)獲取《這一屆科研計算人趕DDL紅寶書:學生篇/老師篇》
關于fastone云平臺在其他應用上的具體表現,可以點擊以下應用名稱查看:
HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA │ MOE Virtuoso
- END -
我們有個為應用定義的CAE云仿真平臺
集成多種CAE/CFD應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書
歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
這一屆科研計算人趕DDL紅寶書:學生篇
楊洋組織的“太空營救”中, 那2小時到底發生了什么?
速石科技獲元禾璞華領投數千萬美元B輪融資
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
速石科技成三星Foundry國內首家SAFE云合作伙伴
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”
【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
本期實證的主角是——Virtuoso。
半導體行業中使用范圍最廣的EDA應用之一。
1991年Virtuoso技術正式發布,最初作為掩模設計師的版圖工具,是Opus平臺的一部分,主要功能包括電路設計與仿真、版圖設計、設計驗證,以及模擬/數字混合設計等。
近30年來,Virtuoso產品已和最初有很大不同,但其核心仍然是版圖編輯器。
應用工具層面。Cadence一直致力于優化EDA應用算法和性能,提高自動化水平,將Virtuoso逐漸升級和擴展為集合多項新技術的系統設計平臺。
而從應用到云資源層,就由我們來發揮了。
我們針對EDA應用云原生適配,為IC研發設計人員提供一整套即開即用,快速上手的IC研發設計環境,系統性大幅提升研發效率。
我們到底是怎么做到的?
研發效率具體提高在哪些方面?
什么是即開即用的IC研發設計環境?好用嗎?改變原來習慣嗎?
以下是今天的正文:
用戶需求
某芯片設計公司做數模混合芯片,經常使用Virtuoso調用Spectre完成仿真任務,需要趕MPW shuttle,即將面臨多項目同時進行、項目關鍵時間節點相同的困境。
但公司CEO并不想單純靠增加本地機器來解決目前問題,一方面考慮到會對企業造成比較大的現金流壓力,另一方面公司并沒有專門的IT和CAD團隊。他對能不能用云解決現有問題十分重視,也直接和云廠商交流過,對我們的云上自動化和Auto-Scale功能很感興趣。
實證目標
1、fastone平臺是否支持在云端使用Virtuoso運行仿真任務?
2、通過平臺使用Virtuoso和本地差別大嗎?
3、Auto-Scale自動化伸縮具體怎么實現的?
4、Slurm調度器行不行?
實證參數
平臺:fastone企業版產品
應用:Cadence Virtuoso
適用場景:數模混合電路設計及仿真
云端硬件配置:Spectre仿真主要需要的是計算密集型CPU,所以平臺推薦的是計算優化型云端實例
調度器:Slurm(關于調度器,下文會詳細講解)
技術架構圖:
一整套即開即用的IC研發設計環境
操作像吃了德芙般順滑
用戶對于在本地單機使用Virtuoso運行仿真任務,已經非常熟悉。而對于在云上跑,用戶依然有以下疑問:
什么叫一整套?從哪一步到哪一步?
云上使用Virtuoso,操作方式會改變嗎?會不會很麻煩?
我們為用戶提供的產品,從登錄桌面、打開應用、配置仿真、提交任務、自動上云開機運行任務并自動關機、查看結果進行調試……用戶所需要的操作與本地幾乎完全一致,每一步只需在平臺上使用鼠標簡單點選即可完成。
我們說的“一整套”,就是這個意思。
至于操作方式會不會改變?
拿訪問集群舉例。用戶訪問集群,既可以通過命令行,也可以通過WebVNC圖形界面方式直接訪問。
手動模式訪問集群,一共有五步,往往還需要請IT先配置環境 :
1、在云端開一臺機器;
2、在云端安裝VNC服務并進行配置,有幾個用戶使用就需要配置幾個賬號;
3、在本地安裝VNC服務并進行配置;
4、在云端開啟VNC服務;5、用戶使用各自賬號登錄客戶端VNC訪問云端。
我們為所有用戶免費提供WebVNC功能,自動化創建到訪問集群:
1、通過Web瀏覽器登錄fastone平臺;
2、在Web界面新建集群、配置資源;
3、在已創建的集群點擊WebVNC遠程桌面圖標(同時提供WebSSH遠程命令行功能);
4、跳轉到虛擬桌面,可在該桌面中操作Virtuoso。
我們還提供了統一的用戶認證,不同用戶可以直接訪問VNC,無需重新配置。
這種操作方式給用戶提供了熟悉的操作環境,使其能夠快速地遠程自動化訪問集群,避免了大量的手動部署,使用體驗更好。
在數據傳輸上,我們同樣為用戶提供了不改變操作習慣的DM工具,用戶無需在多套認證系統之間切換,使用統一的身份認證即可傳輸數據,并自動關聯云端集群進行計算,具體看這里《CAE云實證Vol.8:LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置》
當然,好處遠遠不止這些。
Auto-Scale自動伸縮就像仙女棒 變大變小變漂亮
fastone通過Auto-Scale功能實現自動化創建集群的過程,可以實現自動監控用戶提交的任務數量和資源的需求,動態按需地開啟所需算力資源,在提升效率的同時有效降低成本。
怎么讓仙女棒發揮作用?
先來設置一下:
下圖就是開啟Auto-Scale功能后,用戶某項目一周之內所調用云端計算資源的動態情況。
其中橙色曲線為OD實例的使用狀況,紅色曲線為SPOT的使用狀況。
OD:On-Demand,按需實例。針對短期彈性需求,按小時計費,但價格比較高。
SPOT:可被搶占實例,又稱競價實例。價格最低可達到按需實例價格的10%,相當于秒殺,手快有手慢無,隨時可能被搶占中斷,需要有一定的技術實力才能使用。
兩個重點:
第一、從圖中可以看到整個階段算力波峰為約3500核,而波谷只有650核左右。用戶使用資源是存在明顯的波峰波谷周期的。Auto-Scale功能可以根據任務運算情況動態開啟云端資源,并在波峰過去后自動關閉,讓資源的使用隨著用戶的需求自動擴張及縮小,最大程度匹配任務需求。
當然,用戶也可以選擇自己對最大最小值進行設置,加以限制。
這一方面節約了用戶成本,不需要時刻保持最高峰使用資源;
另一方面也最大限度保證了任務最大效率運行。
比如跑100個corner的仿真,以前只能同時跑10個,要花10天,現在可以同時跑100個,只要1天就可以完成。這兩種方式成本相同,為用戶節約出了顯著的時間差,大大縮短了任務運行周期,提升了研發效率。
第二、我們的Auto-Scale功能支持對不同計費模式(OD、SPOT)實例進行自動伸縮,OD按需實例價格通常為SPOT實例的3-10倍。
Auto-Scale功能可以根據不同的用戶策略,比如成本最優還是時間優先,自動化跨區、跨類型為用戶調度云資源,完成計算任務。
至于不同策略具體怎么落地執行?相比時間優先策略,成本優先怎么做到降低成本最多達67%-90%?在這篇實證《生信云實證Vol.3:提速2920倍!用AutoDockVina對接2800萬個分子》里體現得十分明顯。
不僅限于運行任務期間,其實早在創建集群的時候,自動化Auto-Scale過程就已經開始了。在這篇Bladed實證里,fastone平臺在任務的不同階段采取不同的策略應對,除任務運行時間內全部云資源滿負荷運作以外,在數據處理和結果數據上傳階段均只開啟了1-2臺機器,而其他準備過程不需要開啟機器。
習慣了LSF/SGESlurm調度器到底行不行?
為什么選擇Slurm調度器?
Virtuoso應用原生支持的調度器有LSF和SGE。LSF作為商業軟件,由IBM提供商業支持,是半導體行業最常用的調度器軟件。曾經衍生出的開源版Openlava在2016后IBM發起的版權訴訟之后,2018年正式被禁用。
SGE商業版在去年已經隨Univa被Altair收購。類似的,免費開源版已經長期無維護和更新,也存在版權風險。
LSF和SGE均按核時收費,價格不菲,如果在云端大規模使用,價格驚人,而且都需要購買單獨的Resource Connector或Navops Launch產品才能支持在云上使用。
而Slurm作為調度器四大流派里唯一的純開源派,就不受規模和費用的限制了。而且Slurm擁有容錯率高、支持異構資源、高度可擴展等優點,每秒可提交超過1000個任務,且由于是開放框架,高度可配置,擁有超過100種插件,因此適用性相當強。所以我們優先選擇Slurm。
關于這四家主流調度器:LSF/SGE/Slurm/PBS以及它們的9個演化版本,可以看這篇文章《億萬打工人的夢:16萬個CPU隨你用》,我們進行了整體梳理和盤點,尤其是對云的支持方面劃了重點。
我們是怎么實現的?
答案是:SGE Wrapper。
Wrapper是什么呢?可以看看下圖,可以看到同樣的命令在不同的調度器之間有不同的實現方式:
而Wrapper就像不同調度器命令語言中的翻譯器,我們相當于通過這個翻譯器,把Slurm語言翻譯成了Virtuoso聽得懂的SGE語言,于是應用就能正常運行啦。
關于不同調度器的使用效果。我們曾經在ProteusOPC實證場景四中分別使用SGE和Slurm在云端和本地分別調度2000核/5000核運行相同OPC任務。
結論是:對于計算結果無影響。
關于調度器如何在多機器多任務的情況下提升資源利用率,并進行自動化管理,可以看這篇《EDA云實證Vol.7:揭秘20000個VCS任務背后的“搬桌子”系列故事》
任務監控還能搞出省錢大招?
根據我們對整個任務消耗資源狀態的監控,發現運算該組任務所使用的內存大部分時間在5G以下,但會有極短的一段時間(不超過半小時)達到17.5G。
從上圖中可以看到,Swap剩余量在短時間內從8.6G跌到了7.1G,隨后很快回升到了8.38G,也就是說如果沒有Swap,運行內存的瞬時缺口約為1.5G,勢必造成任務失敗。
Swap,交換分區,就是在內存不夠的情況下,操作系統先把內存中暫時不用的數據,存到硬盤的交換空間,騰出內存來讓別的程序運行。
如果配置16G的內存,任務最后會因此失敗。
但如果選擇配置32G內存,著實有點浪費,畢竟也就超了一點點。
而同等CPU資源下,配備32G內存的價格普遍要比16G貴1.4-1.9倍。
正是由于完備的監控和任務性能評估機制,我們建議用戶在云端運算時配備16G內存,同時使用Swap功能渡過這段內存波峰,以達到最高的性價比。
實證小結
1、fastone平臺支持在云端使用Virtuoso調用Spectre運行仿真任務;
2、用戶使用這套研發設計環境能閉環完成Virtuoso運行任務,且基本不改變用戶習慣;
3、fastone平臺的云上自動化模式和Auto-Scale功能能有效幫用戶縮短研發周期,同時降低使用成本;
4、Slurm調度器不會影響計算結果,是更具性價比及擴展性的選擇;
5、fastone平臺擁有完備的監控及任務性能評估機制。
本次EDA實證系列Vol.10就到這里了。下一期我們聊HFSS。
關于fastone云平臺在不同應用上的具體表現,可以點擊以下應用名稱查看:HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA │ MOE
- END -
我們有個為應用定義的EDA云平臺
集成多種EDA應用,大量任務多節點并行
應對短時間爆發性需求,連網即用跑任務快,
原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,
無需代碼支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
AI太笨了……暫時
速石科技成三星Foundry國內首家SAFE云合作伙伴
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”,竟然是Ta……
【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書
EDA云平臺49問
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
做化學/生物這一類計算,場景很多,應用選擇范圍也相當大,甚至同一場景可能用到很多不同的應用。就拿分子對接舉例,相關軟件就有開源的和商業的不下數十種。
熟悉并習慣一種應用,已經需要不低的學習成本,何況這些應用往往還留了一些API接口給用戶,需要寫一些腳本才能運行。
而且很多時候,現成的應用是無法滿足用戶的研究需求的,需要用戶自己來編程。
另一個角度:
如果計算量突增,就會涉及到大規模計算資源的調用,可能涉及本地服務器、集群,甚至超算和公有云。
或者計算量還好,但是不想再重復勞動,能不能一次操作完成所有需要手動一次次做的事,一百次就忍了,一千次,一萬次呢?
或者不需要團隊每個人重復一遍同樣的學習過程,做個模板它不香嗎?
工具的最大價值,是把人從機械性的重復勞動中解放出來,騰出時間來思考更重要的事。
今天我們就通過一個MOE實證來聊聊,我們怎么幫你降低工作量(偷懶),節約時間,甚至預測未來。
用戶需求
某高校課題組使用MOE對數據庫中的約200000個分子進行模擬,希望在2天內完成計算。根據以往經驗,單核CPU模擬一個分子所需的時間約為4分鐘,該課題組當前可使用的機房CPU資源最多為64核,需要一周以上才能完成任務。
課題組老師希望借助云端獲取更多計算資源,而且由于課題組團隊有多名學生,所以需要一個既能快速啟用滿足需求,同時又操作簡單便于管理的解決方案。
實證目標
1、MOE任務是否能在云端有效運行?
2、fastone平臺能否將大規模MOE任務的運算時間縮短到2天以內?
3、fastone平臺能否快速啟用,同時方便老師對整個團隊進行管理?
4、由于不是所有的學生的計算機基礎都非常強,fastone能否為其提供相對簡單可行的操作方式?
實證參數
平臺: fastone 企業版產品
應用: MOE
操作系統:Linux CentOS 7.5
適用場景:3D分子可視化、基于結構/片段的藥物設計、蛋白質/DNA/RNA建模、虛擬篩選、分子模擬、化學信息學
云端硬件配置:計算優化型實例本任務屬于CPU密集型任務,對內存的需求不高,因此我們選擇了高性價比的云端計算優化型實例(CPU/內存=1:2)。
技術架構圖:
第一步:我們先做一波應用優化
應用優化分成兩部分,自定義工作流和并行化改造。
1、自定義工作流模板一次制作,反復使用
正如我們開頭說的,很多時候,現成的應用往往無法滿足用戶的需求,需要根據自己的模型和研究目標,自定義設置一套獨有的工作流程。
在生命科學領域,可以說幾乎沒有一模一樣的工作流。
而用戶在進行了一次或多次復雜的設定之后,如果能把這些設定保存成固定模板,就不用重復手動去一步步重新設置。十次百次還能忍,一千次呢?一次制作,反復使用,省時省力,還不用擔心中間出錯。
我們fastone平臺已經實現包括MOE在內多款應用的自定義工作流,可以根據用戶的實際使用場景自定義模板。
而且,這套自定義的設置是可以跨應用存在的,不一定局限在一個應用范圍內。自己重復用,共享給團隊的其他人用,都可以。
我們這套自動化的原則,不僅存在于應用層面,同時也能在資源的調度和部署層面實現。比如不用再一臺臺機器手動安裝配置,不用時刻盯著任務進程。
自動化部署相比手動模式究竟有哪些優勢?看這里《EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?》
2、應用并行化改造
應用并行化改造,通俗地講,就是你在云端弄到了1000核資源,怎么把任務扔到云端,讓其能夠在1000核資源上高效地跑起來,這就是應用并行化改造需要解決的問題。
像MOE這樣的應用,由于單分子計算時間短,分子計算獨立,子任務之間沒有通信開銷,輸入輸出數據量小,特別適合并行化運行。改造完成后,MOE任務可在云端分為若干子任務獨立計算,節省大量時間。
如何從零開始進行應用并行化改造,可以看這篇《EDA云實證Vol.7:揭秘20000個VCS任務背后的“搬桌子”系列故事》
這一波應用優化做完后,用戶可以省時省力地利用云端資源,輕松提升應用運行效率。
第二步:我們開始大規模MOE任務上云
云端擴展性驗證
本地/云端計算優化型實例
3000個分子
結論:
1、同等核數下,云端計算優化型實例的表現與本地計算資源相差無幾;
2、對應用進行并行化改造后,隨著云端核數的增加,運算時間呈線性下降。當CPU核數從64核增加到384核(6倍)之后,運算時間從188.9分鐘縮短為32.2分鐘(5.9倍)。
實證過程:
1、本地使用64核計算資源運算一組MOE任務(模擬約3000個分子),耗時190.4分鐘;
2、云端調度64核計算優化型實例運算一組MOE任務(模擬約3000個分子),耗時188.9分鐘;
3、云端調度128核計算優化型實例運算一組MOE任務(模擬約3000個分子),耗時94.7分鐘;
4、云端調度256核計算優化型實例運算一組MOE任務(模擬約3000個分子),耗時47.4分鐘;
5、云端調度384核計算優化型實例運算一組MOE任務(模擬約3000個分子),耗時32.2分鐘。
云端大規模業務驗證 200000個分子
結論:云端調度384核計算資源,將一組MOE任務(模擬約200000個分子)的計算周期從本地預估的8.7天縮短為1.5天,符合“2天內完成”的任務目標。
實證過程:
1、云端調度64核計算優化型實例運算一組MOE任務(模擬約200000個分子),耗時12576分鐘(與本地機房64核的預估時間相仿);
2、云端調度128核計算優化型實例運算一組MOE任務(模擬約200000個分子),耗時6290分鐘;
3、云端調度256核計算優化型實例運算一組MOE任務(模擬約200000個分子),耗時3146分鐘;
4、云端調度384核計算優化型實例運算一組MOE任務(模擬約200000個分子),耗時2138分鐘。
在本實證中,無論是模擬3000個分子還是200000個分子,MOE的線性擴展都相對良好,當云端資源增加到384核之后,運算時間已經成功縮短到了2天以內。
即便模擬的分子數量增加到百萬甚至千萬級別,經過應用并行化處理的MOE依舊可以很好地應對,同時fastone平臺還支持使用對象存儲自動優化存儲效率和費用,以最大化地降本增效。
有些應用特性不一樣,如LS-DYNA和Fluent這兩個應用,隨著計算節點規模的增加,節點間通信開銷會指數級上升,性能的提升便隨之變緩。這種情況,我們也有經驗:
《怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?》
《LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置》
第三步:智能預測成本,提前心里有底
在期限內成功完成了200000個分子的模擬之后,課題組開始計劃下一步任務。 出于對課題總體預算的把控,老師希望能對幾個大規模MOE運算任務的花費進行預估,做到心中有數,以便及時調整計劃。
這時候,就輪到fastone平臺的智能預測功能發揮了。
用戶在fastone平臺的圖形化操作界面運算MOE任務,完成以下步驟:
1、用戶上傳數據文件(平臺自動解析文件,判斷其中包含的分子數量)
2、用戶輸入期望的運算時間(平臺推薦用戶適配機型或用戶自行選擇機型)
3、系統得出預測成本:
根據不同用戶的需求,fastone平臺還可以為用戶分別提供成本優先和時間優先的智能調度策略《生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》
老師可以根據預測成本提前權衡,并在此基礎上進行預算管控。
而對于企業用戶,涉及到預算審批流程,這塊就顯得更為重要,項目負責人能夠非常方便地使用該功能預估項目費用,完成項目規劃和申請。
第四步:權限和角色管理,團隊必備
對于團隊來說,fastone平臺的權限和角色管理功能,支持管理員角色對每一個用戶進行相關權限設定,包括預算使用上限和CPU核數使用上限。
這是很多團隊在上云時都可能面臨的問題——團隊成員共用一個賬戶,共享一個資源池和總預算額度。團隊管理者——通常是課題組老師——對于項目整體消耗的總資源和總預算有一個清晰的概念,但往往很難對具體的操作人員進行計算資源和預算上限管控。
云計算的靈活性和擴展性使得這種管理的重要性大大提升,這里就有一個反面教材《2小時,賬單47萬!「Milkie Way公司破產未遂事件」復盤分析》
fastone平臺的權限控制功能方便管理員從全局角度管控項目的資源消耗。該功能與智能預測配合使用,能夠從多個層面對預算和資源進行全方位規劃。
實證小結
1、MOE任務能夠在云端有效運行;
2、fastone平臺成功將大規模MOE任務的運算時間縮短到了2天以內;
3、fastone平臺自定義工作流模板功能讓用戶一次制作,反復使用,既適配生命科學領域應用特性,又大幅提升用戶和團隊工作效率;
4、fastone平臺的智能預測、權限和角色管理功能讓課題組老師能夠更輕松進行團隊管理和項目規劃。
本次生命科學行業云實證系列Vol.9就到這里了。下一期的生信云實證,我們聊Schr?dinger。 請保持關注哦!
關于fastone云平臺在其他應用上的表現,可以點擊以下應用名稱查看:HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA
- END -
我們有個生物/化學計算云平臺
集成多種生命科學領域應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時5分鐘
快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
2小時,賬單47萬!「Milkie Way公司破產未遂事件」復盤分析
高情商:人類世界模擬器是真的!低情商:你是假的……
【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書
EDA云平臺49問
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
用戶主要是高校/科研機構和航空航天、汽車、電子/高科技、船舶、土木工程、制造和生物工程等行業,包括汽車碰撞、爆炸反應,甚至主動脈人工心臟瓣膜在血液泵送通過時的復雜啟閉行為。
1976年,LS-DYNA由美國Lawrence Livermore國家實驗室的J.O.Hallquist博士主持開發。
1988年,LSTC(Livermore Software Technology Corp.)公司成立,LS-DYNA開始商業化。
1996年,LSTC與ANSYS合作推出ANSYS/LS-DYNA,結合了ANSYS的前、后處理工具和LS-DYNA求解器。
2019年,Ansys收購LSTC。
今天我們通過一個實證來解答用戶在使用LS-DYNA上云過程中的這些關鍵問題。
某車企CAE部門建設有本地機房,日常工作使用單機計算,不僅算得慢,且由于資源未得到統一管理,經常出現高性能機器排隊、低配機器空閑的情況,嚴重拖慢生產設計進度。
隨著公司業務的發展,CAE部門將在不久的將來面臨更大的業務壓力,部門負責人有意將部分LS-DYNA任務擴展到云端,但由于沒有接觸過云,有很多疑問。
1、LS-DYNA任務能否在云端有效運行?計算效率能否優化?
2、LS-DYNA應用最適合的云端資源是哪種類型?
3、LS-DYNA大規模并行場景是否依然能保持線性?
4、fastone能否進行資源統一管理,同時保持用戶本地的使用習慣?
平臺:
fastone企業版產品
應用:
LS-DYNA MPP版本
操作系統:
Linux CentOS 7.4
調度器:
SLURM
適用場景:
仿真材料在承受短時高強度載荷時的響應,如碰撞、跌落以及金屬成型過程中發生的情況
云端硬件配置:
計算優化型實例
通用型實例
內存優化型實例
網絡加強型實例
技術架構圖:
LS-DYNA支持基于Linux、Windows和UNIX的大規模集群的并行仿真計算,分為MPP(Massively Parallel Processing)版本和SMP(Symmetric Multi-Processing)版本。
SMP版本是多個CPU之間共享相同的內存總線等資源,一般只能在單機上運行,受單機CPU性能及CPU核數限制。MPP版本是每個CPU有獨享的內存總線等資源,CPU之間通過網絡通信交換信息,可以在計算機集群上進行計算,大幅提升計算速度。
單機和多機計算背后的詳細原理和意義在《EDA云實證Vol.7:揭秘20000個VCS任務背后的“搬桌子”系列故事》里解釋得非常清楚。
雖然應用不同,原理是一樣的。
和Fluent一樣,隨著計算節點規模地增加,LS-DYNA有很明顯的節點之間數據交換造成的通信開銷,造成信息延時。可以回顧一下《CAE云實證Vol.5:怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?》
下圖這張PingPong測試(顧名思義就是找一個數據包不斷地在兩個節點之間丟來丟去,像打乒乓球一樣。)能看出從16 cores到240 cores,隨著核數增加,信息延時顯著高出一個數量級。而隨著通信數據增加到一定程度,信息延時會出現爆發性增長。
為了充分解答用戶的疑惑,我們選擇了不同類型,不同代際與不同規模的云資源,分別做了以下場景的驗證。
結論:
1、同等核數下,云端計算優化型實例的表現優于通用型實例、內存優化型實例和本地計算資源;
2、隨著核數的上升,由于節點間通信開銷指數級上升,性能的提升隨著線程數增長逐漸變緩。當核數增加到128核后,云端計算優化型實例與本地資源運行相同LS-DYNA所需的時間相差無幾。
實證過程:
1、本地使用64核計算資源運算一組LS-DYNA任務,耗時439分鐘;
2、云端調度64核計算優化型實例運算一組LS-DYNA任務,耗時375分鐘;
3、云端調度64核通用型實例運算一組LS-DYNA任務,耗時506分鐘;
4、云端調度64核內存優化型實例運算一組LS-DYNA任務,耗時533分鐘;
5、本地分別使用16、32、48、64、96、128核計算資源運算同一組LS-DYNA任務,耗時分別為1404、821、566、439、321、255分鐘;
6、云端分別調度16、32、48、64、96、128核計算優化型實例運算同一組LS-DYNA任務,耗時分別為1269、662、458、375、299、252分鐘。
可以看到當核數較少時,計算優化型實例的耗時要明顯少于本地資源,但隨著核數的增加,兩者的耗時逐漸接近,尤其是在128核時,計算優化型實例幾乎已經喪失了所有的優勢。
結論:
新款計算優化型實例運算效率相比舊款提升約15%,且價格更便宜,但同樣存在線性不足的問題。
實證過程:
1、本地分別使用16、32、48、64、96、128核計算資源運算同一組LS-DYNA任務,耗時分別為1404、821、566、439、321、255分鐘;
2、云端分別調度16、32、48、64、96、128核計算優化型實例運算同一組LS-DYNA任務,耗時分別為1269、662、458、375、299、252分鐘;
3、云端分別調度16、32、48、64、96、128核新款計算優化型實例運算同一組LS-DYNA任務,耗時分別為1088、569、391、320、255、216分鐘。
新款計算優化型實例無論是在低核數還是高核數下相比老款均有約15%的性能提升。
那么價格又如何呢?
我們來感受一下不同云廠商多款計算優化型實例的價格差異:
在同等規格下,新款的價格普遍要比舊款便宜,最低甚至接近六折。
當然,并不是所有的云端新款實例都比舊款又快又便宜。
比如我們之前在運算Amber任務時,NVIDIA Tesla K80(2014年上市)的耗時是V100(2017年上市)的約5-6倍,價格卻只有后者的三分之一。
這種時候,我們必須在時間和金錢之間做出一些取舍。詳細可以看這里《生信云實證Vol.6:155個GPU!多云場景下的Amber自由能計算》
我們有一份六大公有云廠商云服務器資源價格全方位對比報告,幫助你對主流廠商的資源價格了如指掌:《六家云廠商價格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云》
同為計算優化型實例,不管新款舊款,都沒有解決LS-DYNA任務大規模并行計算不線性問題。
這個問題的解決方案在哪里?
我們看下一個場景:
結論:
1、在云端使用網絡加強型實例,調度128核計算資源,最多可將運算一組LS-DYNA任務的耗時縮短到135分鐘,只有本地資源和云端計算優化型實例耗時的約二分之一;
2、網絡加強型實例有效解決了LS-DYNA任務并行計算節點間通信問題,在云上展現了良好的線性擴展性。
實證過程:
1、本地分別使用16、32、48、64、96、128核計算資源運算同一組LS-DYNA任務,耗時分別為1404、821、566、439、321、255分鐘;
2、云端分別調度16、32、48、64、96、128核計算優化型實例運算同一組LS-DYNA任務,耗時分別為1269、662、458、375、299、252分鐘;
3、云端分別調度16、32、48、64、96、128核新款計算優化型實例運算同一組LS-DYNA任務,耗時分別為1088、569、391、320、255、216分鐘;
4、云端分別調度16、32、48、64、96、128核網絡加強型實例運算同一組LS-DYNA任務,耗時分別為1202、603、404、307、209、163分鐘。
從上表中可以明顯地觀察到,網絡加強型實例雖然在低核數下的表現并不起眼,但隨著核數的增加,性能提升幅度相當大,在128核的環境下相比本地資源的性能提升將近一倍,線性表現堪稱完美。
在之前的Fluent實證中,我們也驗證了這一點。
用戶的原有使用習慣需不需要改變呢?
在Fluent實證里,我們的切入角度是任務提交方法:
通過journal標準流程化 VS Fluent應用圖形界面兩種模式,適配不同基礎的用戶類型。
這次我們換一個角度——數據傳輸方法和習慣。
用戶在本地:
不論是單機模式還是使用服務器集群,用戶只需要把數據傳到本地機器或服務器上,便可以直接跑任務,當然后面可能有IT部門會完成服務器端數據管理工作。
用戶自己使用云:
用戶將數據傳到本地機器或服務器之后,還需要在云端開啟資源、搭建環境,手動進行數據的上傳和下載。
用戶使用我們平臺:
和本地一樣,用戶只需要把數據上傳到我們的DM(Data Manager)工具上,就可以直接使用數據來跑任務了。
手動模式和自動模式的巨大差異,可以見這篇《EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?》
對于用戶而言,使用我們的DM工具至少有三大優勢:
1、自動關聯集群,不改變操作習慣
用戶無需在多套認證系統之間切換,使用統一的身份認證即可傳輸數據,并自動關聯云端集群進行計算,不改變其原有的使用習慣。
2、一次上傳,多次使用
數據只需上傳一次即可多次使用,其他用戶在經過統一認證后也可隨時共享,極大提升團隊協同能力。
3、大幅提升傳輸效率
關于這點,我們在這篇《CAE云實證Vol.2:從4天到1.75小時,如何讓Bladed仿真效率提升55倍?》里有提到,用戶在跑Bladed任務之前需要上傳多達數百GiB的風文件。
而且,隨著任務的調整,有大量小文件需要增量上傳。在這個實證中,用戶需要上傳9600個任務文件,每個幾十MiB不等。
我們的DM工具能很好地滿足用戶需求,支持全自動化數據上傳,可充分利用帶寬,幫助用戶快速上傳、下載海量數據。
同時,利用fastone自主研發的分段上傳、高并發、斷點續傳等數據傳輸技術,優化海量數據的傳輸效率。
1、LS-DYNA任務能夠在云端有效運行,大幅提升求解效率;
2、匹配合適類型云資源,LS-DYNA應用的高效率并行性在云端同樣適用;
3、fastone的DM工具為用戶提供了簡單有效的云端數據傳輸方案,同時無需改變用戶本地使用習慣;
4、fastone能有效進行資源的統一管理和監控。
本次CAE行業云實證系列Vol.8就到這里了。
下一期的CAE云實證,我們聊COMSOL。
請保持關注哦!
- END -
我們有個為應用定義的計算云平臺
集成多種應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書
歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
2小時,賬單47萬!「Milkie Way公司破產未遂事件」復盤分析
高情商:人類世界模擬器是真的!低情商:你是假的……
【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書
EDA云平臺49問
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
對經常跑EDA或其他算力密集型任務的用戶來說,在深度掌握本行業業務知識及熟練運用常見EDA工具以外,通常還需要在技能樹上點上一門技能——IT,就是怎么(順利)使用機器把手里的任務給(高效)跑完。
他們的IT技能升級打怪之旅一般分為三個階段:
第一階段:單機單CPU核,單任務
第二階段:單機多CPU核,多任務
第三階段:多機多CPU核,多任務
據我們觀察,很多用戶都已經處在第二階段。
但是,依然有部分用戶尚處在第一階段,比如我們今天的實證主角。
我們之前的六篇實證都直接一步到位——上云后。
HSPICE │ Bladed │Vina │OPC │Fluent │Amber
今天我們看看上云前的幕后系列,又名:搬桌子的故事。
某IC設計公司運行EDA仿真前端設計和后端設計的分析任務,進行機電一體芯片技術的開發。現有機房設備較為老舊,共有8臺單機,需要同時服務數字和模擬兩個研發部門。
隨著公司業務的發展,相關部門負責人幾乎同時反饋業務峰值時計算資源嚴重不足,排隊現象嚴重。
1、fastone平臺是否能有效提升VCS任務運行效率?
2、fastone平臺是否能有效提升本地機器資源利用率?
3、fastone平臺是否支持大規模VCS任務自動化穩定運行?
平臺:fastone企業版產品
應用:Synopsys VCS
適用場景:數模混合電路仿真
系統:Red Hat Enterprise release 5.7(Tikanga)
我們先來看看用戶自己跑20000個任務和我們來跑的效果:
我們將本地機房的8臺單機構建為一個統一管理的集群,運行20000個VCS任務的時間是用戶自己所需時間的約1/50。
1、用戶使用一臺單機C1運行20000個VCS任務,耗時40485分鐘;
2、將本地機房的所有8臺單機構建為集群A,使用集群A運行20000個VCS任務,耗時809分鐘。
用戶按常理推斷,本地機房共有8臺單機,將所有機器一起來運行大規模VCS任務的時間大概應該是使用一臺機器機耗時的6-7倍(理想值為8倍,但由于存在長尾任務,存在一定差異)。
但實證中50倍的提升大大超出了他們的預期。
中間發生了什么?
回到我們開頭說的三個階段——
單任務狀態下的單機單核,就是一個任務只在一臺機器上的一個CPU上跑。不管這臺機器其實有幾個CPU,反正就只用一個。資源利用率極其低下,可以說是暴殄天物。
再細一點,這里其實還有個1.5階段:單機多CPU核,單任務。效果類似。
假設給你幾個人(CPU核),完成一個叫做“搬桌子”的任務。
單任務的處理方式分為單進程和多進程:
單進程的處理方式是:不管你有幾個人,同一時間永遠只有1個人在搬整張桌子,其他人在圍觀。
多進程的處理方式是:
先拆桌子。比如把一張桌子拆成4個零部件,分給4個人來同時搬,有的搬桌子腿,有的搬桌面等等,搬得最慢的人決定任務的完成速度。
但是,哪怕你有8個人,一次也只有4個人在搬。
搬完一張桌子再搬下一張,依次往復。
補充一個背景信息:2009年4月,新思科技就發布了VCS的多核技術,通過將耗時的計算處理動態地分配至多個CPU內核來突破芯片驗證的瓶頸,從而提高驗證的速度。
也就是說,應用十多年前就支持單任務多進程了,現在這個技術的名字叫Fine-Grained Parallelism,FGP。
多任務狀態下的單機多核,就是多個任務能同時在一臺機器上的數個CPU上跑,受制于單臺機器的最大核數,目前最多也就96個核了。
我們繼續講“搬桌子”。
上一階段的多進程處理方式,存在一個明顯的問題。哪怕你有8個人,一次也只有4個人在搬。搬完一張桌子再搬下一張。
這就很不合理了。
于是我們在此基礎上改進了一下。
在你有8個人的情況下,一張桌子4個人搬,我們可以同時搬兩張桌子啦。這樣可以明顯加快任務的完成速度。
但是,單臺機器的總CPU核數就是上限了。
當然這一階段還是會存在一些問題,會出現有人突然跳出來跟你搶人或者你也搞不清楚哪些人現在有空來幫你。
因為資源使用的不透明和缺乏有序管理,會出現不同人對同一資源的爭搶,任務排隊等現象。同時,你會發現資源利用率還是不高。
不少用戶已經處在這一階段。
我們看看從第一階段到第二階段的實際VCS驗證效果:
應用并行化驗證 400個任務
對VCS進行多任務并行化處理后,一臺單機運行相同VCS任務的時間縮短為原先的15%-16%,極大提升了運行效率。
實證過程:
1、使用一臺單機C1(8核)運行400個VCS任務,耗時806分鐘;
2、使用一臺單機C2(8核)運行400個VCS任務,耗時793分鐘;
3、對VCS應用進行多任務并行化處理后,使用一臺單機C1(8核)運行400個VCS任務,耗時130分鐘;
4、對VCS應用進行多任務并行化處理后,使用一臺單機C2(8核)運行400個VCS任務,耗時122分鐘。
多任務狀態下的多機多核,就是多個任務能同時在數臺機器的數個CPU上跑,這個我們稱之為集群化管理,一般都需要有調度器的參與。
關于調度器的相關知識,看這里:億萬打工人的夢:16萬個CPU隨你用
前面講到我們已經可以同時安排搬兩張桌子啦。但其實,如果你的機器足夠多,人(CPU核)足夠多,你完全可以同時搬更多的桌子。
這個時候,必然要面臨一個如何調兵遣將的問題。
這么多機器,這么多任務,怎么順利一一配置、啟動、關閉,提高整體資源利用率,最好還能自動化管理等等。這就需要一點技術了。
至于云上資源的大規模動態化調度和管理,要更加高階一點。
在《生信云實證Vol.3:提速2920倍!用AutoDockVina對接2800萬個分子》中,我們最多調用了10萬核CPU資源對整個VS數據庫進行虛擬篩選。
當集群達到如此規模之后,手動管理是不可想象的。
而且云上資源跟本地不同,往往是個動態使用的過程,有時候甚至要搶。
更不用說還要考慮不同用戶在不同階段的策略和需求。
我們看看從第二階段到第三階段的實際VCS驗證效果:
集群化驗證 400個任務
由2臺單機構建的集群運行相同VCS任務的時間為單機的約60%,并實現了自動化資源管理。
實證過程:
1、使用一臺單機C1(8核)運行400個VCS任務,耗時130分鐘;
2、使用一臺單機C2(8核)運行400個VCS任務,耗時122分鐘;
3、將C1和C2構建為集群B,使用集群B運行400個VCS任務,耗時75分鐘。
最后,我們回顧一下,我們到底做了哪些事:
應用并行化:從單任務到多任務
fastone幫助用戶實現了應用并行化,可以充分使用一臺單機上的全部CPU資源,確保了最大的計算效率。
資源集群化:從單機到集群
fastone幫助用戶實現了集群化管理,讓多臺機器能夠并行化運行VCS任務,實現了數據、應用、資源的統一化管理。
規模自動化:從400個任務到20000個任務
用戶希望在面臨大規模VCS任務時,上述方案的穩定性能夠得到充分驗證。
fastone幫助用戶充分驗證了20000個VCS任務場景下,能夠自動化規模化地調度資源高效完成任務,滿足用戶需求。
到現在為止,我們成功幫助用戶從單機單任務單進程運行的階段大幅度跨越到了大規模任務自動化集群化運行階段。
萬事俱備,下一步,上云。
我們的前兩篇EDA云實證可以了解一下:
《從30天到17小時,如何讓HSPICE仿真效率提升42倍?》
《 5000核大規模OPC上云,效率提升53倍》
本次EDA行業云實證系列Vol.7就到這里了。
下一期的EDA云實證,我們聊Virtuoso。
請保持關注哦!
- END -
我們有個為應用定義的云平臺
集成多種應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書歡
迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
你可能感興趣:
2小時,賬單47萬!「Milkie Way公司破產未遂事件」復盤分析
【2021】全球44家頂尖藥企AI輔助藥物研發行動白皮書
EDA云平臺49問
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
靈魂畫師,在線科普多云平臺/CMP云管平臺/中間件/虛擬化/容器是個啥
花費4小時5500美元,速石科技躋身全球超算TOP500
對藥物分子的虛擬篩選,僅僅實現分子對接是不夠的,往往會面臨一個問題就是藥物分子活性的評價。許多藥物和其它生物分子的活性都是通過與受體大分子之間的相互作用表現出來的,是動態的。
受體和配體之間結合自由能(Binding Afinity)評價是基于結構的計算機輔助藥物分子設計的核心問題。
基于分子動力學(Molecular Dynamics, MD)模擬的煉金術自由能(Alchemical Free Energy,AFE)計算是提高我們對各種生物過程的理解以及加快多種疾病的藥物設計和優化的關鍵工具。
MD模擬實驗數據量大,計算周期長,常用軟件包括Amber、NAMD、GROMACS、Schr?dinger等等。GPU的并行處理技術能大大加速計算效率,所以很多MD模擬軟件都開始支持GPU。
GROMACS作為一款開源軟件,完全免費,但其成熟版本對于GPU的支持并不理想,教程相對少,對用戶的要求比較高。
Schr?dinger是商用軟件,功能全面,GPU支持很好,但License是按使用核數計算的,價格相對昂貴。
Amber軟件包包括兩個部分:AmberTools和Amber。
AmberTools可以在Amber官網免費下載和使用,Tools中包含了Amber絕大部分模塊,但不支持PMEMD和GPU加速。
Amber是收費的,從Amber11開始支持GPU加速仿真,Amber18開始支持GPU計算自由能,且教程齊全易操作,不限制CORE的使用數量。2020年4月,已經更新到Amber20版本。
學術/非營利組織/政府:500美元
企業:新Amber20用戶 20000美元(原Amber18用戶 15000美元)
今天實證的主角是Amber,有幾個重點我們先說為敬:
第一、不同GPU型號價格差異極大,對Amber自由能計算的適配度和運算效率也不同,如何為用戶選擇最匹配的資源類型;
第二、用戶對GPU的需求量比較大,而不同云廠商提供的可用GPU資源數量不確定,價格差異也很大,可能需要跨多家云廠商調度,如何實現?同時,盡可能降低成本;
第三、用戶使用的Amber18版本,根據我們的經驗,在使用GPU計算時存在10%-15%的失敗概率。一旦任務失敗,需要調度CPU重新計算,能否及時且自動地處理失敗任務,將極大影響運算周期。
某高校研究所對一組任務使用Amber18進行自由能計算,使用本地48核CPU資源需要12小時,而使用1張GPU卡運算該組任務只需3小時。
該研究所目前面臨16008個任務需要使用Amber18進行自由能計算,負責人根據以往數據估算使用本地CPU資源可能要1年以上才能完成任務,使用單個GPU需要至少4個月,周期過長,課題等不了。
因此,他們迫切希望通過使用云上資源,尤其是GPU資源來快速補充本地算力的不足,更快完成任務。
1、Amber自由能計算能否在云端有效運行?
2、fastone是否能為用戶選擇合適的GPU實例類型?
3、fastone平臺是否能在短時間內獲取足夠的GPU資源,大幅度縮短項目周期?
4、Amber18版本運行GPU的失敗概率問題,fastone平臺是否能有效處理?
平臺:
fastone企業版產品
應用:
Amber18
操作系統:
CentOS 7.5
適用場景:
基于分子動力學模擬的自由能預測
云端硬件配置:
NVIDIA Tesla K80
NVIDIA Tesla V100
調度器:
Slurm
技術架構圖:
新版的GPU資源,運行速度快,但是價格高。
老版的GPU資源,價格是便宜了,但是運行速度也慢。
老機型就一定劃算嗎?這可不一定。
結論:
1、無論是從時間效率還是成本的角度,都應選擇更新型的NVIDIA Tesla V100;
2、在云端運算相同的Amber18任務時,NVIDIA Tesla K80的耗時是NVIDIA Tesla V100的約5-6倍,從時間效率的角度,V100明顯占優;
3、NVIDIA Tesla K80云端GPU實例的定價約為NVIDIA Tesla V100云端GPU實例的不到三分之一(某公有云廠商官網上單個K80的按需價格為0.9美元/小時,V100則為3.06美元/小時),綜合計算得出V100的性價比是K80的約1.4-1.8倍。
實證過程:
1、云端調度1個NVIDIA Tesla K80云端GPU實例運算A組Amber任務,耗時16.5小時;
2、云端調度1個NVIDIA Tesla K80云端GPU實例運算B組Amber任務,耗時2.5小時;
3、云端調度1個NVIDIA Tesla V100云端GPU實例運算A組Amber任務,耗時3.3小時;
4、云端調度1個NVIDIA Tesla V100云端GPU實例運算B組Amber任務,耗時0.4小時。
結論:
fastone平臺根據用戶任務需要和特性,跨兩家公有云廠商,智能自動化調度云端GPU/CPU異構資源,包括155個NVIDIA Tesla V100和部分CPU資源,將運算16008個Amber任務的耗時從單GPU的4個月縮短到20小時。
1、怎么通過Auto-Scale功能提高GPU資源的利用率?
用戶的Amber任務運算時存在依從機制,即每12個任務中包含1個主任務,只有當主任務運行結束后,其他11個任務才能開始并行運算。
在本場景中,由于任務數量高達16008個,這就意味著有1334個主任務需要率先跑完。
本次實證中:
第一,任務有先后,所以需要先跑主任務,在每個主任務完成之后自動調度資源并行運算其他11個任務;
第二,不同任務完成時間可能不同,對資源的需求量可能時高時低有波動,最終結束關機時間也不同。
fastone平臺使用Slurm調度器按順序調度任務排隊,Auto-Scale功能可自動監控用戶提交的任務數量和資源的需求,動態按需地開啟與關閉所需算力資源,在提升效率的同時有效降低成本。
關鍵是,一切都是自動的。
隨任務需要自動化開機和關機到底有多省錢省心,誰用誰知道。
用戶還可根據自己需求,設置自動化調度集群規模上下限,相比手動模式能夠節省大量時間與成本。
調度器是干嘛的,為什么大規模集群需要用到調度器,有哪些流派,不同調度器之間區別是什么等等問題可以參考億萬打工人的夢:16萬個CPU隨你用
2、任務用GPU運算失敗,怎么及時用CPU自動重算?
Amber18在使用GPU時計算時有10-15%概率失敗,需要及時調度CPU資源重新計算,這里會涉及到一個問題:錯誤的任務能否及時重新用CPU運行。(注:該問題已在Amber20中修復)
跟上一點一樣,自動化還是手動的部署差別非常大。
失敗任務自動跳出來重新運行,嗯,就是這么乖巧。
自動化模式和手動模式到底多大差別,多省錢省心可以看這篇:EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
本次實證中:
由于任務總數高達16008個,全部使用GPU計算,預計將會有1600-2400個任務算錯,對自動化調度CPU資源的響應速度和規模提出了很高的要求。
fastone平臺提供的智能調度策略,能在使用GPU資源計算失敗時,自動定位任務并按需開啟CPU資源,對該任務重新進行計算,直到計算完成為止。
3、GPU資源的多云調度,如何兼顧成本和效率,最大化用戶利益?
云上的GPU可用資源有限,155個NVIDIA Tesla V100不是一個小數目,單個公有云廠商單區域資源未必能夠隨時滿足需求。
本次實證中:
第一,涉及到跨兩家公有云廠商之間的資源調度;
第二,GPU資源的在不同云廠商之間有著顯著的差異,而且往往資源多的售價高,便宜的資源少,怎么兼顧成本和效率。
以各大公有云廠商在北京地區的GPU實例(V100)按需價格為例,最高價格超過最低價2倍。
關于不同云廠商之間的價格比較和SPOT競價實例到底能有多便宜,可以看這篇:【2020新版】六家云廠商價格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云
fastone平臺可綜合考量用戶對完成任務所需時間和成本的具體要求,在多個云廠商的資源之間選擇最適配的組合方案,為用戶跨地區、跨云廠商調度所需資源。
下圖場景是出于成本優化目的,我們為用戶自動調度本區域及其他區域的目標類型或相似類型SPOT實例資源。
具體看這篇:生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子
本次實證,fastone平臺完美解決了以上三個挑戰:
第一,自動監控用戶提交的任務數量和資源的需求,動態按需地自動化開啟與關閉所需算力資源,提高GPU資源利用率;
第二,在GPU資源計算失敗時,自動定位任務并按需開啟CPU資源,對該任務重新進行計算,直到計算完成為止;
第三,在多個云廠商的資源之間選擇最適配的組合方案,為用戶跨地區、跨云廠商調度所需GPU資源。
1、Amber任務能夠在云端有效運行;
2、fastone為用戶任務推薦最適配的GPU資源類型;
3、fastone平臺能夠在短時間內跨區域,跨云廠商獲取足夠的GPU資源,滿足用戶短時間算力需求,大幅度縮短項目周期;
4、針對Amber18版本運行GPU任務失敗概率問題,fastone平臺可自動調度CPU資源重新計算,降低。
本次生信行業Cloud HPC實證系列Vol.6就到這里了。
在下一期的生信云實證中,我們聊MOE。
請保持關注哦!
- END -
我們有個【在線體驗版】
集成多種應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
2020年新版《六大云廠商資源價格對比工具包》
添加小F微信(ID: imfastone)獲取
你也許想了解具體的落地場景:
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
EDA云實證Vol.4 ,5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
關于云端高性能計算平臺:
The post 生信云實證Vol.6:155個GPU!多云場景下的Amber自由能計算 appeared first on 速石科技BLOG.]]>