LS-DYNA是一個(gè)以顯式求解為主,隱式求解為輔的通用非線性動(dòng)力有限元分析程序,核心是求解器。
用戶主要是高校/科研機(jī)構(gòu)和航空航天、汽車、電子/高科技、船舶、土木工程、制造和生物工程等行業(yè),包括汽車碰撞、爆炸反應(yīng),甚至主動(dòng)脈人工心臟瓣膜在血液泵送通過時(shí)的復(fù)雜啟閉行為。
1976年,LS-DYNA由美國(guó)Lawrence Livermore國(guó)家實(shí)驗(yàn)室的J.O.Hallquist博士主持開發(fā)。
1988年,LSTC(Livermore Software Technology Corp.)公司成立,LS-DYNA開始商業(yè)化。
1996年,LSTC與ANSYS合作推出ANSYS/LS-DYNA,結(jié)合了ANSYS的前、后處理工具和LS-DYNA求解器。
2019年,Ansys收購(gòu)LSTC。
- 如何提高求解器的計(jì)算效率?
- 本地和云上仿真并行計(jì)算是一回事嗎?
- 什么類型的云端資源更適合跑LS-DYNA?
- LS-DYNA大規(guī)模并行計(jì)算效率優(yōu)化明顯嗎?
- 在云上運(yùn)行會(huì)改變用戶本地的使用習(xí)慣嗎?
今天我們通過一個(gè)實(shí)證來解答用戶在使用LS-DYNA上云過程中的這些關(guān)鍵問題。
用戶需求
某車企CAE部門建設(shè)有本地機(jī)房,日常工作使用單機(jī)計(jì)算,不僅算得慢,且由于資源未得到統(tǒng)一管理,經(jīng)常出現(xiàn)高性能機(jī)器排隊(duì)、低配機(jī)器空閑的情況,嚴(yán)重拖慢生產(chǎn)設(shè)計(jì)進(jìn)度。
隨著公司業(yè)務(wù)的發(fā)展,CAE部門將在不久的將來面臨更大的業(yè)務(wù)壓力,部門負(fù)責(zé)人有意將部分LS-DYNA任務(wù)擴(kuò)展到云端,但由于沒有接觸過云,有很多疑問。
實(shí)證目標(biāo)
1、LS-DYNA任務(wù)能否在云端有效運(yùn)行?計(jì)算效率能否優(yōu)化?
2、LS-DYNA應(yīng)用最適合的云端資源是哪種類型?
3、LS-DYNA大規(guī)模并行場(chǎng)景是否依然能保持線性?
4、fastone能否進(jìn)行資源統(tǒng)一管理,同時(shí)保持用戶本地的使用習(xí)慣?
實(shí)證參數(shù)
平臺(tái):
fastone企業(yè)版產(chǎn)品
應(yīng)用:
LS-DYNA MPP版本
操作系統(tǒng):
Linux CentOS 7.4
調(diào)度器:
SLURM
適用場(chǎng)景:
仿真材料在承受短時(shí)高強(qiáng)度載荷時(shí)的響應(yīng),如碰撞、跌落以及金屬成型過程中發(fā)生的情況
云端硬件配置:
計(jì)算優(yōu)化型實(shí)例
通用型實(shí)例
內(nèi)存優(yōu)化型實(shí)例
網(wǎng)絡(luò)加強(qiáng)型實(shí)例
技術(shù)架構(gòu)圖:

LS-DYNA支持基于Linux、Windows和UNIX的大規(guī)模集群的并行仿真計(jì)算,分為MPP(Massively Parallel Processing)版本和SMP(Symmetric Multi-Processing)版本。
SMP版本是多個(gè)CPU之間共享相同的內(nèi)存總線等資源,一般只能在單機(jī)上運(yùn)行,受單機(jī)CPU性能及CPU核數(shù)限制。MPP版本是每個(gè)CPU有獨(dú)享的內(nèi)存總線等資源,CPU之間通過網(wǎng)絡(luò)通信交換信息,可以在計(jì)算機(jī)集群上進(jìn)行計(jì)算,大幅提升計(jì)算速度。
單機(jī)和多機(jī)計(jì)算背后的詳細(xì)原理和意義在《EDA云實(shí)證Vol.7:揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事》里解釋得非常清楚。
雖然應(yīng)用不同,原理是一樣的。
和Fluent一樣,隨著計(jì)算節(jié)點(diǎn)規(guī)模地增加,LS-DYNA有很明顯的節(jié)點(diǎn)之間數(shù)據(jù)交換造成的通信開銷,造成信息延時(shí)。可以回顧一下《CAE云實(shí)證Vol.5:怎么把需要45天的突發(fā)性Fluent仿真計(jì)算縮短到4天之內(nèi)?》
下圖這張PingPong測(cè)試(顧名思義就是找一個(gè)數(shù)據(jù)包不斷地在兩個(gè)節(jié)點(diǎn)之間丟來丟去,像打乒乓球一樣。)能看出從16 cores到240 cores,隨著核數(shù)增加,信息延時(shí)顯著高出一個(gè)數(shù)量級(jí)。而隨著通信數(shù)據(jù)增加到一定程度,信息延時(shí)會(huì)出現(xiàn)爆發(fā)性增長(zhǎng)。

為了充分解答用戶的疑惑,我們選擇了不同類型,不同代際與不同規(guī)模的云資源,分別做了以下場(chǎng)景的驗(yàn)證。
實(shí)證場(chǎng)景一:不同類型配置
本地 VS 云端計(jì)算優(yōu)化型實(shí)例 VS 云端通用型實(shí)例 VS 云端內(nèi)存優(yōu)化型實(shí)例
結(jié)論:
1、同等核數(shù)下,云端計(jì)算優(yōu)化型實(shí)例的表現(xiàn)優(yōu)于通用型實(shí)例、內(nèi)存優(yōu)化型實(shí)例和本地計(jì)算資源;
2、隨著核數(shù)的上升,由于節(jié)點(diǎn)間通信開銷指數(shù)級(jí)上升,性能的提升隨著線程數(shù)增長(zhǎng)逐漸變緩。當(dāng)核數(shù)增加到128核后,云端計(jì)算優(yōu)化型實(shí)例與本地資源運(yùn)行相同LS-DYNA所需的時(shí)間相差無幾。
實(shí)證過程:
1、本地使用64核計(jì)算資源運(yùn)算一組LS-DYNA任務(wù),耗時(shí)439分鐘;
2、云端調(diào)度64核計(jì)算優(yōu)化型實(shí)例運(yùn)算一組LS-DYNA任務(wù),耗時(shí)375分鐘;
3、云端調(diào)度64核通用型實(shí)例運(yùn)算一組LS-DYNA任務(wù),耗時(shí)506分鐘;
4、云端調(diào)度64核內(nèi)存優(yōu)化型實(shí)例運(yùn)算一組LS-DYNA任務(wù),耗時(shí)533分鐘;

5、本地分別使用16、32、48、64、96、128核計(jì)算資源運(yùn)算同一組LS-DYNA任務(wù),耗時(shí)分別為1404、821、566、439、321、255分鐘;
6、云端分別調(diào)度16、32、48、64、96、128核計(jì)算優(yōu)化型實(shí)例運(yùn)算同一組LS-DYNA任務(wù),耗時(shí)分別為1269、662、458、375、299、252分鐘。

可以看到當(dāng)核數(shù)較少時(shí),計(jì)算優(yōu)化型實(shí)例的耗時(shí)要明顯少于本地資源,但隨著核數(shù)的增加,兩者的耗時(shí)逐漸接近,尤其是在128核時(shí),計(jì)算優(yōu)化型實(shí)例幾乎已經(jīng)喪失了所有的優(yōu)勢(shì)。
實(shí)證場(chǎng)景二:不同代際,同樣類型配置
本地 VS 云端計(jì)算優(yōu)化型實(shí)例 VS 新一代云端計(jì)算優(yōu)化型實(shí)例
結(jié)論:
新款計(jì)算優(yōu)化型實(shí)例運(yùn)算效率相比舊款提升約15%,且價(jià)格更便宜,但同樣存在線性不足的問題。
實(shí)證過程:
1、本地分別使用16、32、48、64、96、128核計(jì)算資源運(yùn)算同一組LS-DYNA任務(wù),耗時(shí)分別為1404、821、566、439、321、255分鐘;
2、云端分別調(diào)度16、32、48、64、96、128核計(jì)算優(yōu)化型實(shí)例運(yùn)算同一組LS-DYNA任務(wù),耗時(shí)分別為1269、662、458、375、299、252分鐘;
3、云端分別調(diào)度16、32、48、64、96、128核新款計(jì)算優(yōu)化型實(shí)例運(yùn)算同一組LS-DYNA任務(wù),耗時(shí)分別為1088、569、391、320、255、216分鐘。

新款計(jì)算優(yōu)化型實(shí)例無論是在低核數(shù)還是高核數(shù)下相比老款均有約15%的性能提升。
那么價(jià)格又如何呢?
我們來感受一下不同云廠商多款計(jì)算優(yōu)化型實(shí)例的價(jià)格差異:

在同等規(guī)格下,新款的價(jià)格普遍要比舊款便宜,最低甚至接近六折。
當(dāng)然,并不是所有的云端新款實(shí)例都比舊款又快又便宜。
比如我們之前在運(yùn)算Amber任務(wù)時(shí),NVIDIA Tesla K80(2014年上市)的耗時(shí)是V100(2017年上市)的約5-6倍,價(jià)格卻只有后者的三分之一。

這種時(shí)候,我們必須在時(shí)間和金錢之間做出一些取舍。詳細(xì)可以看這里《生信云實(shí)證Vol.6:155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算》
我們有一份六大公有云廠商云服務(wù)器資源價(jià)格全方位對(duì)比報(bào)告,幫助你對(duì)主流廠商的資源價(jià)格了如指掌:《六家云廠商價(jià)格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云》
同為計(jì)算優(yōu)化型實(shí)例,不管新款舊款,都沒有解決LS-DYNA任務(wù)大規(guī)模并行計(jì)算不線性問題。
這個(gè)問題的解決方案在哪里?
我們看下一個(gè)場(chǎng)景:
實(shí)證場(chǎng)景三:不同規(guī)模云端擴(kuò)展性驗(yàn)證
本地 VS 云端計(jì)算優(yōu)化型實(shí)例 VS 云端網(wǎng)絡(luò)加強(qiáng)型實(shí)例
結(jié)論:
1、在云端使用網(wǎng)絡(luò)加強(qiáng)型實(shí)例,調(diào)度128核計(jì)算資源,最多可將運(yùn)算一組LS-DYNA任務(wù)的耗時(shí)縮短到135分鐘,只有本地資源和云端計(jì)算優(yōu)化型實(shí)例耗時(shí)的約二分之一;
2、網(wǎng)絡(luò)加強(qiáng)型實(shí)例有效解決了LS-DYNA任務(wù)并行計(jì)算節(jié)點(diǎn)間通信問題,在云上展現(xiàn)了良好的線性擴(kuò)展性。
實(shí)證過程:
1、本地分別使用16、32、48、64、96、128核計(jì)算資源運(yùn)算同一組LS-DYNA任務(wù),耗時(shí)分別為1404、821、566、439、321、255分鐘;
2、云端分別調(diào)度16、32、48、64、96、128核計(jì)算優(yōu)化型實(shí)例運(yùn)算同一組LS-DYNA任務(wù),耗時(shí)分別為1269、662、458、375、299、252分鐘;
3、云端分別調(diào)度16、32、48、64、96、128核新款計(jì)算優(yōu)化型實(shí)例運(yùn)算同一組LS-DYNA任務(wù),耗時(shí)分別為1088、569、391、320、255、216分鐘;
4、云端分別調(diào)度16、32、48、64、96、128核網(wǎng)絡(luò)加強(qiáng)型實(shí)例運(yùn)算同一組LS-DYNA任務(wù),耗時(shí)分別為1202、603、404、307、209、163分鐘。

從上表中可以明顯地觀察到,網(wǎng)絡(luò)加強(qiáng)型實(shí)例雖然在低核數(shù)下的表現(xiàn)并不起眼,但隨著核數(shù)的增加,性能提升幅度相當(dāng)大,在128核的環(huán)境下相比本地資源的性能提升將近一倍,線性表現(xiàn)堪稱完美。
在之前的Fluent實(shí)證中,我們也驗(yàn)證了這一點(diǎn)。
用戶的原有使用習(xí)慣需不需要改變呢?
在Fluent實(shí)證里,我們的切入角度是任務(wù)提交方法:
通過journal標(biāo)準(zhǔn)流程化 VS Fluent應(yīng)用圖形界面兩種模式,適配不同基礎(chǔ)的用戶類型。

這次我們換一個(gè)角度——數(shù)據(jù)傳輸方法和習(xí)慣。
用戶在本地:
不論是單機(jī)模式還是使用服務(wù)器集群,用戶只需要把數(shù)據(jù)傳到本地機(jī)器或服務(wù)器上,便可以直接跑任務(wù),當(dāng)然后面可能有IT部門會(huì)完成服務(wù)器端數(shù)據(jù)管理工作。
用戶自己使用云:
用戶將數(shù)據(jù)傳到本地機(jī)器或服務(wù)器之后,還需要在云端開啟資源、搭建環(huán)境,手動(dòng)進(jìn)行數(shù)據(jù)的上傳和下載。
用戶使用我們平臺(tái):
和本地一樣,用戶只需要把數(shù)據(jù)上傳到我們的DM(Data Manager)工具上,就可以直接使用數(shù)據(jù)來跑任務(wù)了。

手動(dòng)模式和自動(dòng)模式的巨大差異,可以見這篇《EDA云實(shí)證Vol.1:從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?》

對(duì)于用戶而言,使用我們的DM工具至少有三大優(yōu)勢(shì):
1、自動(dòng)關(guān)聯(lián)集群,不改變操作習(xí)慣
用戶無需在多套認(rèn)證系統(tǒng)之間切換,使用統(tǒng)一的身份認(rèn)證即可傳輸數(shù)據(jù),并自動(dòng)關(guān)聯(lián)云端集群進(jìn)行計(jì)算,不改變其原有的使用習(xí)慣。
2、一次上傳,多次使用
數(shù)據(jù)只需上傳一次即可多次使用,其他用戶在經(jīng)過統(tǒng)一認(rèn)證后也可隨時(shí)共享,極大提升團(tuán)隊(duì)協(xié)同能力。
3、大幅提升傳輸效率
關(guān)于這點(diǎn),我們?cè)谶@篇《CAE云實(shí)證Vol.2:從4天到1.75小時(shí),如何讓Bladed仿真效率提升55倍?》里有提到,用戶在跑Bladed任務(wù)之前需要上傳多達(dá)數(shù)百GiB的風(fēng)文件。
而且,隨著任務(wù)的調(diào)整,有大量小文件需要增量上傳。在這個(gè)實(shí)證中,用戶需要上傳9600個(gè)任務(wù)文件,每個(gè)幾十MiB不等。
我們的DM工具能很好地滿足用戶需求,支持全自動(dòng)化數(shù)據(jù)上傳,可充分利用帶寬,幫助用戶快速上傳、下載海量數(shù)據(jù)。
同時(shí),利用fastone自主研發(fā)的分段上傳、高并發(fā)、斷點(diǎn)續(xù)傳等數(shù)據(jù)傳輸技術(shù),優(yōu)化海量數(shù)據(jù)的傳輸效率。
實(shí)證小結(jié)
1、LS-DYNA任務(wù)能夠在云端有效運(yùn)行,大幅提升求解效率;
2、匹配合適類型云資源,LS-DYNA應(yīng)用的高效率并行性在云端同樣適用;
3、fastone的DM工具為用戶提供了簡(jiǎn)單有效的云端數(shù)據(jù)傳輸方案,同時(shí)無需改變用戶本地使用習(xí)慣;
4、fastone能有效進(jìn)行資源的統(tǒng)一管理和監(jiān)控。
本次CAE行業(yè)云實(shí)證系列Vol.8就到這里了。
下一期的CAE云實(shí)證,我們聊COMSOL。
請(qǐng)保持關(guān)注哦!
- END -
我們有個(gè)為應(yīng)用定義的計(jì)算云平臺(tái)
集成多種應(yīng)用,大量任務(wù)多節(jié)點(diǎn)并行
應(yīng)對(duì)短時(shí)間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個(gè)月甚至幾年,現(xiàn)在只需幾小時(shí)
5分鐘快速上手,拖拉點(diǎn)選可視化界面,無需代碼
支持高級(jí)用戶直接在云端創(chuàng)建集群
掃碼免費(fèi)試用,送200元體驗(yàn)金,入股不虧~

更多電子書
歡迎掃碼關(guān)注小F(ID:imfastone)獲取
-764x1024.jpg)
你也許想了解具體的落地場(chǎng)景:
揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事
155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算
怎么把需要45天的突發(fā)性Fluent仿真計(jì)算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對(duì)接2800萬個(gè)分子
從4天到1.75小時(shí),如何讓Bladed仿真效率提升55倍?
從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?
關(guān)于為應(yīng)用定義的云平臺(tái):
2小時(shí),賬單47萬!「Milkie Way公司破產(chǎn)未遂事件」復(fù)盤分析
高情商:人類世界模擬器是真的!低情商:你是假的……
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動(dòng)白皮書
EDA云平臺(tái)49問
國(guó)內(nèi)超算發(fā)展近40年,終于遇到了一個(gè)像樣的對(duì)手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500
