火箭快遞,使命必達。
美日韓包郵,江浙滬秒到。
LANDSPACE藍箭航天在2019年聯合淘寶正式啟動“寶箭”計劃,共同研發“寶箭”號運載火箭,實現網購快遞急速送達的目標。
這可能是我們朋友圈離火箭最近的一次。
大家都還在:“急,在線等”。
2023年7月12日,藍箭航天跨出了創造歷史的一步。
朱雀二號遙二運載火箭在酒泉衛星發射中心發射成功,成為全球首枚成功入軌的液氧甲烷火箭。
藍箭航天CEO張昌武在成功第二天發布的全員內部信里說:“我們始終堅守常識,堅決通過自主研發液體動力系統,立足于自主創新、自主可控的動力核心來構建朱雀系列運載火箭,使得我們至今仍是中國第一(且唯一)家依靠獨立研制的動力系統取得火箭飛行成功的商業火箭公司,也是唯一建成了設計、制造、測試、發射完整鏈條能力并經飛行驗證的商業火箭企業。”
總有人在替我們仰望星空。
一、民營商業航天的“破局者”,主打一個自主研發
“藍箭的核心競爭力就是我們沒有訣竅,我們就是在按照愚公移山的精神在做火箭,在遵從火箭規律的前提下做火箭。我們堅持核心的技術自己研制,核心的設施自己保障。”
——藍箭航天CEO 張昌武
作為國內首家取得全部準入資質的民營運載火箭企業,藍箭航天主打自主創新、自主可控,在沒有可以借鑒參考的企業前提下,選擇了“地獄開局”模式——錨定液氧甲烷技術路線、自研發動機系統、自建核心設施,成為超前技術的開拓者。
張昌武明確表示,公司成本支出比例中,研發制造要居于首位。在絕大多數民營航天企業采購第三方服務的氛圍下,他覺得,只有自主研發和制造,才會有出路。從最前沿的發動機理念的構想,到最新技術的設計圖紙,到制造出真實的發動機和其他火箭部件,再到不斷試驗更改設計中的錯誤,再到制造出試驗版本的火箭,整個流程均由藍箭航天主導。
因此,藍箭所選的技術路線是投資規模最大、技術難度最深、開發周期最長的,對人的挑戰也是最高的。一旦能夠走下來,所形成的行業壁壘非常高,所形成的市場競爭力也非常強。
二、大量仿真 VS 三次機會
“航天最挑戰人性的地方,就是航天這個東西,沒有中間狀態,只有0和1,而且大家只會記住1。”
——火箭研發總經理 戴政
整個火箭的造價,純硬件成本目前都在1億元以上,遑論其他。
這次成功入軌的朱雀二號,藍箭就只給了TA三次失敗的機會。
如何才能真正“把問題留在地面,把成功帶上太空”,這是個至關重要的問題。
“液氧甲烷的難,并不是說它有理論上不可行的地方,它更多的是體現在工程應用層面的難……在這個過程中,我們做大量的仿真,做大量的試驗,去摸索規律,逐漸建立對甲烷物理特性的認識,才能解決好這個問題。”火箭研發總經理戴政揭示了答案——大量的仿真,大量的試驗。
不是所有的東西都可以通過觀察、推演和試驗獲得的,比如宇宙演化、核彈爆炸,比如火箭入軌,或者實現不了,或者成本過高。
所以需要仿真,降低成本,提前試錯,縮短試驗進程。
仿真,是基于一定的數理模型基礎,對現實的空間和時間進行分割,一次次反復計算求解,才能建立認知,摸索規律,從而解決大大小小的問題。
通過仿真,我們可以做很多事情:
比如,在以前發的這篇文《楊洋組織的“太空營救”中, 那2小時到底發生了什么?》里,通過仿真驗證,西北衛星測控中心確認了衛星失聯的原因,準確及時采取應對措施,恢復整個衛星通信系統。
再比如,“寶箭”快遞,要在什么高度以什么速度什么角度才能正確投遞到你家天臺?
在藍箭的世界里,大量仿真,大量試驗,才能一擊必勝。
一、一千個人,一千種使用方式
主打自主研發的藍箭航天,發展速度非常快,使用速石研發平臺的用戶數從0到數百人,穩定增長,資源用量也隨著業務周期長期穩定上升。
這個過程中有兩個問題:
1. 研發團隊人員來自天南海北,背景復雜,經驗不一,使用習慣也各不相同,需要有一個千人千面的平臺;
2. 除了使用習慣外,就跟Alpha Cen一樣,研發人員需要持續探索新的技術路線,做一些前沿研究和嘗試。所以藍箭需要給研發工程師們留出空間,給他們充分的自由度,讓他們放開手去試錯,去最大可能尋求更優解。
首先,每個用戶都是單獨的賬號,互不干擾。
而針對不同的用戶背景和特性,我們提供了以下三種使用模式:
任務模式:通過Web瀏覽器向導式一鍵提交仿真任務,適用于確定的仿真求解流程。
集群模式:通過Web瀏覽器登錄集群遠程桌面,打開應用開啟仿真任務,充分發揮按需配置、資源多樣化大規模并行調度能力。
工作站模式:Windows系統,與傳統的本地單機仿真處理習慣一致。
既能千人千面,也能給每個工程師最大的自由度,滿足他們的使用習慣。
三種模式的實際應用,可以戳這篇:怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
二、多團隊研發協同與統一管理
根據業務線的劃分,藍箭有數個研發團隊,且分布在北京、上海、西安三個地區,不同地區的團隊存在業務上的交叉,需要多團隊研發協同與統一管理。
用戶層面,我們為不同團隊成員提供面向CAE應用適配與優化的研發環境,用戶之間可共享數據、應用、計算、網絡、存儲,有效利用資源,提高協作能力。
數據層面,一方面,我們打通了數據傳輸通道,提供數據管理能力,實現多團隊仿真任務高效協同;另一方面,平臺對不同用戶之間也做到了數據隔離,管理員可針對業務需求靈活控制平臺的功能和權限分配,保障數據訪問安全。
資源層面,我們支持將同一個集群按使用團隊或資源屬性分成不同的獨立分區,比如浙桂。這樣既保證了不同組的研發們能在同一個集群中工作,保留各自操作習慣的同時還互不干擾;又可以讓他們更有效地使用資源,減少閑置資源,提升整體資源利用率。
我們支持多種用戶統一身份認證體系協議的對接:OIDC、SAML、oAuth2。目前已經接入了藍箭的身份認證體系。
三、基于數據分析的精細化運營管理
1. 更全局
基于CAE任務層的監控、告警、數據統計分析功能與服務,我們能從全局角度監控各個重要指標變化,掌握整體任務及資源情況,為未來項目合理規劃、集群生命周期管理、成本優化提供支持。
比如,通過關注不同團隊用量占比與周期性波動情況,兼顧團隊與整體,助力各團隊實現其業務目標。
2. 更細顆粒
我們還支持以更精細的顆粒度,如以項目、產品、用戶、應用為維度,監控任務和資源情況,進行運營數據分析與成本評估,為進一步管理優化提供支持。
比如,用戶級別的用量統計與分析,能更好地理解業務場景與個人需求,公司能更好地在全局管理的基礎下提供支持。
芯片設計界有個非常稀罕的崗位叫IT-CAD,人才難得。
我們真心覺得,CAE界也值得擁有。
翻譯一下,TA的主要職能是在研發與IT之間架起一座橋梁,我們姑且可以稱之為R&D-IT能力。可針對研發人員所使用的CAE應用軟件提供底層硬件基礎上的整個研發環境架構與構建、CAE仿真流程跑通與優化、故障響應、技術支持和使用咨詢等服務。
想仔細了解我們是怎么助攻的,可以參考這篇:【案例】普冉半導體逐步布局自主可控,漸次提升研發效率
一、標準CAE仿真環境的規劃和搭建
TA需要做的第一件事,就是站在整個仿真研發體系和架構視角進行標準CAE仿真環境的規劃和搭建。
這個規劃,不是走一步看一步,也不是頭痛醫頭,腳痛醫腳。
這件事,我們可以幫TA全做了。
我們的產品在設計之初就是面向CAE應用,服務整個企業的工業仿真研發業務場景的。這也決定了我們解決問題的出發點永遠是:是否滿足研發業務需求,然后從上至下地解決問題。
三個特點:
1. 我們提供的是一整套即開即用的CAE仿真研發平臺,是完整的一體化產品;
2. 產品一站式交付,提供了非常好的用戶交互體驗,簡單易上手;
3. 無論用戶人數、資源數量和類型如何變化,產品架構對現在&未來均有著極強的兼容性與彈性,且支持多個研發中心協同。
二、仿真設計流程的跑通,應用的適配和銜接
隨著CAE環境搭建的完成,TA需要做的第二件事,就是仿真設計流程的跑通,各種CAE應用的適配和銜接。
這第二件事,我們能幫TA把手動做的事全部自動化,還能提供應用層與資源層的最佳實踐經驗。
我們提供的這套上中下層聯動的CAE仿真研發環境:
1)連接上層CAE應用,對應用本身的運行提供支持和優化;
2)連接底層資源,給用戶提供更靈活、更高效使用資源的能力;
3)結合CAE應用和底層資源的聯動和適配,給出最佳實踐經驗。
火箭設計是一項復雜、周期很長、技術含量非常高的工作,其研發過程充滿了挑戰性。在設計、研發和制造過程中應用的學科,涉及到結構力學、流體力學、傳熱學、材料等,對CAE應用覆蓋廣泛。
在實際研發場景中,普遍存在的問題有資源利用率不高、排隊現象嚴重、成本難以把控等等。這大多是因為選擇的資源不匹配場景,使用不規范。整個過程中沒有最佳實踐,缺乏專業指導。另外,隨著新的應用場景上來,需要去探索和嘗試的成本特別高,還會造成資源浪費。
1. 結合業務的常見CAE應用適配
不同的CAE應用,對于底層資源層的適配要求是不一樣的。
我們基于藍箭的用戶通用場景,對不同機型效率和成本進行比對后,幫助用戶完成了實例選型。
選型目的有兩個:匹配業務與控制成本。
根據我們的經驗,對于前后處理來說,一般需要選擇GPU能力比較強的機型。
對于求解計算:
隱式算法,相比顯式算法來說,精度相對高,但可擴展性不是很好,即在多臺機器上的線性加速比并不好,適合于在多核大內存機器上運行,一般對內存、IO要求較高。
顯式算法,精度比隱式算法低,但可擴展性相對較好,即在多臺機器上的線性加速比相對較好,適合于多節點并行計算,對機器無特殊要求,一般對內存、IO要求較低。
不同CAE業務場景的擴展性排序大抵如下圖所示,從上往下逐步提高。
比如,隱式算法計算電磁學,并行度沒那么高,適合單機、高配,IO、性能越高越好。
而計算流體力學、結構力學這種業務場景,線性加速性能比較好,適合暴力堆機器,多機并行。
2. 針對某CAE應用的最佳實踐參考
根據某CAE應用的最佳實踐:
在同等核數下運行該應用,開關超線程的成本差距并不大,但關閉超線程可以節省約一半甚至更多的時間,性價比相當高。
我們建議藍箭:
第一,針對該應用統一關閉超線程跑;
第二,設置資源分區,一個開超線程分區,一個關超線程分區,讓用戶分開使用。研發團隊可以根據自身業務場景需求,選擇不同的分區。
我們為藍箭提供的最佳CAE應用實踐參考,極大地幫助了研發團隊更好地利用資源,從而提升計算效率,節省計算成本。
三、DEBUG,處理研發與IT之間的交叉區域問題
這第三件事,最令人頭大,也最耗精力。
有時候,可能讓TA從睜眼到閉眼都被BUG環繞。
我們能做的:
1. 根據最佳實踐和經驗進行預判,幫TA預防掉一些問題;
2. 產品級能力,通過把手動過程IT自動化,減少一些問題;
3. 我們幫TA定位并解決一些問題。
讓TA能把時間花在更重要的事情上。
為什么有這么多問題?
根本原因在于,研發與IT之間是有壁的,他們說的是不同世界的語言。而且壁與壁之間還有一段不小的距離,不知道該歸誰管,需要懂交叉學科的人才。
有些交叉領域問題,IT可能真不了解,研發可能不得不自學大量技能。
詳情可戳這篇:八大類主流工業仿真平臺【心累指數】終極評測(上)
我們在這方面表現非常優秀,下圖可以看出來:
我們能為交叉領域提供專業支持,包括技術支持、故障響應、使用咨詢等,讓研發從此可以專注研發。
CSM(Customer Success Manager),客戶成功經理,作為關鍵客戶服務接口,主要為藍箭提供了以下兩類服務:
1. 定制全天候專業服務
為客戶定制專業的服務計劃,包括整體運維管理、資源統計分析、賬單分析、周期性服務事件匯總等。通過全天候主動式服務,快速響應及閉環用戶遇到的問題,提升用戶使用體驗。
2. 業務高峰期重保服務
CSM還提供業務高峰期重保服務,協助用戶平穩度過業務高峰,保障關鍵業務順利開展。
今天我們只看定制全天候專業服務。
先看效果:
1. 提升用戶研發效率,保障整體業務穩定性;
2. 整個研發平臺使用期間,單核時成本下降達73%。
單核時成本反映了每單位計算資源的費用,從而直接反映了資源利用的效率。
注:此單核時費用,包含計算、存儲、網絡、服務等整體費用
根據CSM的工作與效果,我們大致把整個業務分為三個階段:
階段一:業務早期磨合期
平臺上線初期,業務場景不固定,用戶大量保留原本較粗放的使用習慣,資源按需使用計費的情況較多。
這一階段,CSM積極開展用戶調研,并定期與用戶的業務團隊leader進行用量數據分析,結合實際業務開展的情況,輸出計算資源合理使用建議,實施按需OD轉包月RI策略,使得資源使用逐步精細化、合理化。
同時,CSM針對CAE應用進行深度支持,建立起基礎監控告警策略,開展研發平臺使用培訓,并快速響應和處理用戶日常問題,充分保證業務運行穩定。
階段二:中期深入優化期
隨著用戶業務的推進,GPU資源使用逐步增多,由于GPU資源成本較高,使得單核時成本出現顯著上升,由此,不合理的資源使用帶來的成本浪費也被放大。
CSM根據監控數據發現了這一問題,指導用戶進行合理的資源選型和業務分配,讓資源利用更加合理、高效。同時,深入使用場景,協助用戶持續優化告警策略,增設了核時波動告警、實例空閑告警等,進一步提升平臺穩定性,并為持續性的成本優化提供了數據支撐。
階段三:持續優化的平穩期
經歷了前兩個階段的波動之后,業務穩定性和單核時成本均邁入了小步穩定向好的態勢。
在這一階段,CSM持續提供主動巡檢、定期數據分析、使用技巧賦能、安全加固規劃、產品需求追蹤落地等服務支撐,深耕細化,持續提升用戶體驗。
CSM主要做了哪幾件事?
一、全方位系統監控&飛書告警策略
CSM為藍箭搭建全方位系統監控&告警策略體系:
初期,協助用戶創建基礎監控體系,提前預防問題,降低系統風險;
中后期,深入使用場景,協助用戶持續優化告警策略,比如核時波動告警、實例空閑告警等,進一步提升平臺穩定性,為持續性成本優化提供數據支持。
平臺級告警處理:
一旦發現問題,CSM會結合用戶調研與數據分析情況,與用戶進行及時溝通和風險預警提示,根據實際業務運行情況針對性輸出建議,指導用戶進行合理資源選型與業務分配,讓資源利用更加合理、高效。
用戶級告警處理:
1. 告警信息會被通知至飛書群;
2. 接收人收到飛書告警后,匹配資源所屬研發并定向通知至本人;
3. 資源所屬研發收到告警通知后,進行后續操作。
二、周/月/年度數據分析,定期匯報與溝通
為了提供最高效、最全面的服務,CSM向藍箭提供了周/月/年度數據分析報告,緊急問題隨時線上會議交流。
這種定期和主動的溝通方式,一方面能使我們更好更及時地響應、理解和滿足用戶的需求,另一方面,也為管理者提供一個及時、全面的視角,掌握平臺的整體運營情況、研發團隊遇到的問題和需求的最新進展。
三、主動巡檢,7*24小時技術問題響應
面對各類復雜問題,我們始終堅持以用戶、業務為中心,以專業的團隊及時響應、處理問題,確保問題得到完整的閉環。
年度問題處理與閉環總計:400+,覆蓋平臺搭建與維護、CAE應用安裝與維護、網絡調試與維護等問題。
四、專項培訓與FAQ總結
CSM還會組織專項培訓和FAQ總結分享,助力形成內部沉淀,提高工作效率,更加迅速和準確地解決問題。
1. 持續培訓
為幫助研發團隊充分理解和快速掌握平臺的使用,CSM會針對使用過程中的一些疑問進行集中專項培訓,尤其是在平臺上線與更新、新人入職期間加大培訓力度,并以文檔、培訓視頻方式形成內部沉淀。
2. FAQ總結
為了提高研發人員解決問題的效率和自助能力,針對共性和普遍性存在的問題,CSM每月都會整理和更新常見問題集(FAQ),在藍箭內部分享,減少重復問題帶來的溝通時間成本,提高用戶體驗。
Take Away
1. 張昌武說:“我們某種程度上在中國商業航天領域里面是一個最早的發起者,也是在這過程中一個持續的參與者和推動者。因為這個行業是沒有一個現成的樣板讓我們去模仿,讓我們去抄襲的。我們只有自己去定義,這個行業該怎么去走。”
我們也感到非常榮幸,能有機會參與并推動中國自主商業航天領域的發展。
2. 在產品調研中用戶反饋,我們的產品在短時間即可滿足絕大多數業務流程和功能,幫他們節省了很多時間和人力,快速實現整個研發環境的從零到一。而且很重要的一點是,原來的使用方式都是單機為主,現在實現了集群化和自動化,大大提升了研發效率。
3. 國內工業制造領域陸續進入產業升級數字化轉型階段,尤其對于主打自主研發創新的公司,工業仿真軟件是智能制造設計研發環境不可或缺的工具,在產品迭代過程給予的技術支撐作用日益凸顯,各環節都需要與仿真技術進行深度融合,加快迭代周期,節省時間和資源。我們的仿真研發平臺以及擁有的R&D-IT能力,對這類公司的快速起飛能起到非常好的推動作用。
藍箭航天空間科技股份有限公司(藍箭航天)是國內領先的航天運輸系統創建及運營的商業公司,成立于2015年,國家高新技術企業,國際宇航聯合會(IAF)會員。藍箭航天以國家戰略為指引,以市場需求為導向,致力于研制以液氧甲烷作為推進劑的中大型運載火箭系列產品,為全球市場提供高性價比、高可靠性的發射服務。秉承高度集成化、智能化的產品設計和研發理念,藍箭航天憑借卓越的創新能力及專業技術團隊解決產品設計、制造、測試和交付,構建商業航天領域的科技綜合體,打造世界一流商業航天企業。
關于fastone云平臺在各種CAE應用上的表現,可以點擊以下應用名稱查看:
Bladed │ Fluent │ LS-DYNA │ COMSOL
速石科技工業仿真行業白皮書,可以戳下方查看:
仿真宇宙|評測篇(上) |評測篇(下)
- END -
我們有個工業仿真研發云平臺
CAE/CFD仿真設計全流程覆蓋
Auto-Scale自動按需開關所需資源
任務一鍵提交,仿真結果可視化
自研DM工具,高效傳輸仿真數據
仿真成本自動統計、分析、優化
掃碼免費試用,送200元體驗金,入股不虧~
更多CAE電子書
歡迎掃碼關注小F(ID:iamfastone)獲取
你也許想了解具體的落地場景:
這樣跑COMSOL,是不是就可以發Nature了
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
工業仿真研發平臺:
光電兼修的Alpha Cen,如何應對上升期的甜蜜煩惱?
國產調度器之光——Fsched到底有多能打?
研發/IT工程師雙視角測評8大仿真平臺,結果……
八大類主流工業仿真平臺【心累指數】終極評測(上)
2023仿真宇宙漫游指南——工業仿真從業者必讀
近期重大事件:
速石科技出席ICCAD2023,新一代芯片研發平臺助力半導體企業縮短研發周期
速石科技與芯啟源開啟戰略合作,聯手打造軟硬件一體芯片研發云平臺
速石科技作為特邀服務商入駐IC PARK,合力打造集成電路產業新生態
速石科技成為國家“芯火”深圳雙創基地(平臺)戰略合作伙伴,推動國產EDA公共技術服務云平臺建設
速石科技聯合電信、移動、聯通三大運營商,為國家數字經濟轉型注入新動力
上一篇,我們圍繞著億萬研發工程師的夢想,考察了市面上幾乎所有類型的工業仿真平臺,深度評測了他們本質究竟是什么,適用場景有哪些,分別能給研發和IT工程師們減輕多少工作量。
據此,我們搭建了一個工業仿真平臺【心累指數】金字塔模型。
戳這里回顧金字塔模型與基本設定:八大類主流工業仿真平臺【心累指數】終極評測(上)
不同廚房/餐廳設定對應著同一層級不同“仿真平臺”的本質屬性,詳細展開可以戳上面的鏈接。總之,從金字塔底層到塔尖,不論是對研發還是IT工程師,都是站得越高,用得越爽。
你可以跳過下文直接掃碼獲取白皮書閱讀原文,但看完會獲得一個新的視角,也非常不錯。
在上篇里,我們從基礎定義與適用場景出發,討論了8種平臺/方案的產品模式、兼容性、支持的CAE仿真軟件、底層資源量與類型、計費模式等信息。
今天,我們將更進一步,從研發和IT工程師的雙視角用戶體驗出發,一起看看這8種平臺/方案究竟是如何提升研發效率、降低IT工作量的?
3.1、需要研發掌握什么技能?
底層:
自己買機器,研發+IT需要聯合搞定包括但不限于軟件、系統、硬件行情、機房選址、網絡配置、IT運維、數據安全、集群調度……等事情。自家IT的能力越強,研發就相對輕松,反之就更心累。
超算中心需要研發點亮部分IT技能。
特別是超算中心大多使用Linux系統,要求研發掌握一定的Linux常識才能上手。貼一張超算的實際運行界面,大家感受一下?
云廠商同樣需要研發點亮部分IT技能。但是云廠商可同時提供Windows和Linux的若干版本供用戶選擇,只不過帶Windows系統的云資源普遍要比帶Linux系統的貴。
中層:
這一層屬于第三方平臺,用戶沒有接觸底層資源的權限,自然也不需要有太多IT技能。但這也代表著,很多東西是不能輕易改動的。
如果遇到使用上的問題,一般需要呼喚第三方平臺的人來協助。自家IT可能幫不了太多。
塔尖:
針對研發與IT之間的交叉領域,我們的一整套端到端的仿真研發環境將很多IT工作自動化操作,大大減少了交叉領域的工作難度和工作量。另外,還有fastone的R&D-IT團隊還可以提供全方位的服務支持。
fastone在支持Windows的同時,也可支持用戶在Linux系統中使用圖形化界面操作仿真任務,你只需熟悉一下Linux的常用操作與工具(如瀏覽器、文本編輯器),即可在很短的時間內上手,操作習慣幾乎無需改變。
詳請可戳:怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
3.2、是否包含前后處理+求解等一整套完整功能?
底層:
買機器,系統環境都需要自己部署,更別提軟件功能了,一切都要靠自己。超算中心和云廠商絕大多數只支持計算求解。
中層:
你可在軟件平臺中直接點擊進入相關步驟,完成前后處理和計算求解。其他平臺主要集中在計算求解這一環節。
塔尖:
同時包含前后處理+計算求解。
3.3、可以圖形化界面操作嗎?
底層:
均無。
中層:
云廠商的仿真平臺不支持。
部分硬件廠商的仿真平臺可支持圖形界面。
超算云做了類似電腦桌面的界面,所有服務(包括SSH、上傳下載,應用等)都可以在圖形界面上操作。
軟件平臺一般完美支持。
塔尖:
fastone針對不同的用戶,提供多種任務提交方式以供選擇。
圖形界面模式:可通過Web瀏覽器啟動集群,跳轉到虛擬桌面,并可在該桌面直接操作應用進行相應設置以開啟云端仿真任務。
任務模式:用戶可以通過Web瀏覽器選擇新建任務、選擇應用、上傳文件、輸入參數、配置資源等一系列向導式路徑提交任務。
集群模式:對于高級用戶,比如本身對應用工作流的理解和編程能力超強,可以不用走普通用戶通過應用向導式提交的路徑,可以直接根據自己寫的腳本,通過Web瀏覽器選擇新建集群,然后按需動態地在云端創建HPC集群。
3.4、突然有個緊急項目,我能不能馬上用上?
底層:
買機器響應時間最長,采購、運輸、調試、部署環境、安裝軟件一套流程走下來,黃花菜都涼了。超算中心需要排隊,基本不可能滿足緊急需求。
云廠商可以較快地拿到資源,但配置環境、安裝軟件也需要時間。
中層:
除了超算云依然面臨排隊問題,在資源需求量不大的情況下,其他三個平臺理論上均能較快地拿到資源并開始計算。
塔尖:
快速啟動,即開即用。
尤其是當這個緊急項目需要非常多的算力時,fastone云平臺的全球數據中心能持續穩定地提供用戶所需資源類型及數量,分鐘級調度開啟上萬核計算資源,滿足業務緊迫度。
3.5、自動化程度有多高?
自動化是什么意思?不需要你一臺臺地開機器,鼠標簡單點幾下就能自動開關機;能夠自定義工作流程,不需要每次跑仿真都重復設定;
自動檢查任務狀態,出現錯誤可以及時重復提交并通知你;
甚至對于某些因資源類型報錯的任務,還能自動定位并調度其他類型的資源來跑任務……
底層:
均無。
中層:
均無。
塔尖:
fastone云平臺可提供包括自動化部署、自定義工作流、自動檢查任務狀態與重復提交、自動定位任務并調度其他類型資源重算等IT自動化能力與Auto-Scale自動伸縮等功能,可快速全面地提升仿真研發效率。
比如我們的Auto-Scale功能可以自動監控用戶提交的任務數量和資源的需求,動態按需地開啟所需算力資源。在資源不夠的時候,還能根據不同的用戶策略,自動化調度本區域及其他區域的目標類型或相似類型實例資源。
效果怎么樣?看這篇:從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
3.6、當有多個仿真任務時,是否支持開多臺機器同時跑任務?
多個任務同時在數臺機器上跑,這個我們稱之為并行計算,一般都需要有調度器的參與。
關于調度器的相關知識,看這里:億萬打工人的夢:16萬個CPU隨你用
這么多機器,這么多任務,怎么順利一一配置、啟動、關閉,提高整體資源利用率,最好還能自動化管理等等,難度就陡然提升了。
對研發來說,能否支持大規模并行計算,是提升研發效率的關鍵。
底層:
買機器需要自己搞定一切。
超算中心和云廠商則是為你提供了一個基礎架構,只要應用支持,你就可以進行并行計算。
中層:
同樣在應用支持的前提下,金字塔中層可以讓用戶較為方便地進行并行計算。
不過這一層平臺提供的只是基礎環境,用戶能否用好取決于其自身技術能力。
塔尖:
我們自主研發的云原生國產化調度器Fsched,可分鐘級自動化調度上萬核計算資源,幫助用戶應對突發算力需求場景。更重要的是,fastone能夠結合業務特點以及應用特性,利用計算機技術提升不同業務場景的計算效率。
3.7、能否提供任務監控及相應的告警、優化分析功能?
研發工程師關心的主要是自己的任務情況。
底層:
均無。
中層:
均無。
塔尖:
這方面fastone云平臺可謂一枝獨秀。
我們能多維度監控任務狀態,提供基于任務層的監控、告警、數據統計分析功能與服務。
有啥用呢?戳這兩篇了解:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
3.8、仿真文件那么大,數據傳輸效率跟得上嗎?
底層:
買機器如果是在本地進行數據傳輸,取決于本地網絡配置。如果是多地傳輸,就看你買多大的帶寬了。
超算中心對外的網絡帶寬十分有限,且被很多并發用戶共享,數據傳輸是個大問題,人肉送硬盤有時甚至是最好的解決方案。
云廠商對結果數據支持直接讀取,云上存儲,按需下載。但怎么用,能不能用好,還是取決于用戶自己。
中層:
超算云有專線網絡,傳輸效率優于超算中心。
其他三者的傳輸效率視自身機房條件/資源提供方而定。
塔尖:
fastone云平臺擁有自主可控的數據傳輸方案。
你只需要把數據上傳到的DM(Data Manager)工具上,就可以直接使用數據來跑任務。
與市面上開源的數據傳輸工具相比,DM使用方便、功能全面,利用fastone自主研發的分段上傳、高并發、斷點續傳等數據傳輸技術,可大幅優化海量數據的傳輸效率。
4.1、需要IT掌握什么技能?
底層:
自己買機器需要強大的IT團隊,搞定機房、硬件、環境、軟件……等一系列事項。超算中心與云廠商的情況比較類似,除了機器在別人機房你摸不著,IT需要協助研發搞定在使用過程中遇到的其他任何問題……
中層:
這一層,自家IT在熟讀第三方平臺操作說明之后可以幫上一定的忙。
塔尖:
借助多個自動化功能與管理系統(具體可見本章節其他回答),IT只需簡單熟悉操作之后便可快速上手平臺。
而R&D-IT服務的存在也讓IT與研發之間的溝通更加順暢。
4.2、機器多了之后,方便管理嗎?
這個問題其實有兩層含義,即機器多了之后——
1)是否可以方便地自動化運維?這里面涉及到包括開關機、軟件安裝配置、資源監控、集群管理等IT基礎工作的自動化程度;
2)是否可以方便地分配業務?比如臨時需要將一批機器從團隊A劃撥給團隊B使用,是否能夠支持IT快速方便地進行配置?
而能否做到第二點,事實上是由第一點決定的。也就是說,自動化運維的程度越高,越能夠快速方便地分配業務。對IT來說,也就意味著更便于管理。
底層:
買機器需要IT自己搞定所有的運維工作,機器越多越麻煩。
超算中心提供統一的人工運維。
云廠商會提供諸如資源監控、集群管理模塊等功能,具體使用程度取決于用戶本身。
中層:
金字塔中層基本都具備一定的自動化運維能力,如資源監控、權限分配等,但同時也存在著一定程度的功能缺失,比如需要IT自行搞定支持列表之外的軟件、除云廠商的仿真平臺之外均缺失集群管理模塊等等。
塔尖:
fastone云平臺擁有完整的全維度自動化運維能力,機器再多都能輕松管理,快速分配業務。比如大家都熟悉的集群管理,在云端手動管理集群和自動化部署的工作量區別一目了然:
4.3、權限管理方便嗎?比如分配資源上限啥的?
底層:
均無此功能。
中層:
均可提供管理員賬號和子用戶權限分配功能。
塔尖:
支持管理員角色對每一個用戶進行相關權限設定,包括預算使用上限和CPU核數使用上限。
4.4、需要用戶自己來維護機器嗎?
此處的“維護機器”專指對硬件的維護。
底層:
買機器需要自己負責所有機器的維護。超算中心和云廠商無需維護。
中層:
無需自己維護。
塔尖:
無需自己維護。
4.5、有沒有資源監控及相應的告警、優化分析功能?
底層:
買機器需要自己搞定資源監控。
超算中心的監控功能僅存在于全局統計,無法拆開,其他層面的監控功能缺失。
云廠商會提供類似Cloud Watch的基礎監控功能,對云資源的監控十分細致,但配置相對復雜。
中層:
基本都支持資源監控功能。
云廠商的Cloud Watch在金字塔底層說過了,就不再重復了。
有的軟件平臺支持定制監控管理工具,可實時監控任務狀態以及CPU/內存等資源的使用情況;也有的做了中央管理儀表板可視化功能,幫助你方便快捷地監控數據。
塔尖:
不同角色的用戶可根據自身需求,查看所需的資源監控信息。如研發可查看單個任務的資源使用情況,IT則可通過監控功能掌握平臺整體的資源消耗水平。團隊管理者可以監控各個重要指標,從全局角度掌握項目的整體任務及資源情況,為未來項目規劃、集群生命周期管理、成本優化提供支持。
4.6、有什么安全上的風險嗎?
底層:
買機器的都是純本地資源,需要自己搭建防火墻等安全措施,還得注意機房安全。而且機器在自己上手看似能完全掌控計算資源,其實麻煩更多,軟件、硬件、機房、網絡、人員……任何環節出了問題都可能影響你的仿真進程。
超算中心的底層是非隔離的,你能看到其他用戶的任務信息,這是一個比較致命的問題。
更致命的一點是,而超算由于要優先服務國家級科研項目,在某些情況下,即便已經分配到的超算資源,也有可能會被無條件收回。
想象一下,有一天,你吃著火鍋唱著歌,跑著仿真等結果,突然就被收回了資源……任務就涼了。
云廠商的是獨占資源,可以理解為在海量云資源中劃出一塊專屬區域供用戶使用,別人無法觸及。獨占資源意味著:
1)云資源在任何情況下都不用會被搶走;
2)可根據用戶的習慣和應用的特性自由選擇操作系統,沒有任何限制;
3)應用與依賴組件安裝靈活;
4)安全。
中層:
跟第三方平臺底層資源保持一致。
塔尖:
fastone云平臺提供的也是獨占資源。
我們提供完整的云安全策略模型,可對整個安全生命周期進行管理。我們用更完善更具體的產品安全架構,全面保障客戶業務系統安全,包括身份認證、操作日志、MFA、數據隔離、數據加密、數據審批、日志審計、安全規范、安全組織、風險預警等。
綜合對比之后,我們來給8個產品/解決方案排個序:
我們還有更為完整的仿真平臺對比白皮書,歡迎直接掃碼獲取白皮書閱讀完整報告:
目錄先睹為快~
關于fastone云平臺在各種CAE應用上的表現,可以點擊以下應用名稱查看:Bladed │ Fluent │ LS-DYNA │ COMSOL
- END -
我們有個CAE仿真研發云平臺
集成多種CAE/CFD應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書
歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
八大類主流工業仿真平臺【心累指數】終極評測(上)
2023仿真宇宙漫游指南——工業仿真從業者必讀
當仿真外包成為過氣網紅后…
和28家業界大佬排排坐是一種怎樣的體驗?
這一屆科研計算人趕DDL紅寶書:學生篇
楊洋組織的“太空營救”中, 那2小時到底發生了什么?
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
從1998年發布首個版本至今,COMSOL一直在持續進化,如今它已經有了30多個針對不同應用領域的專業模塊,涵蓋力學、電磁場、流體、傳熱、化工、MEMS、聲學等專業學科,并可以將不同的物理問題關聯起來,方便研究不同物理過程之間的相互作用。
越來越多Nature、Science及其子刊論文都用到了COMSOL模擬。
今天我們以一個高校用戶為例,講講我們在COMSOL實際運用過程中,除了速度和效率的提升外,還幫他們解決了哪些問題?
比如:
Windows還是Linux?
這是個問題關于多機并行,有多少種不同的打開方式
一旦用了外部資源,比如超算,本地機器閑置了,就問你心不心疼?
本地環境維護,就問你操不操心?
老師的需求:既要,又要,還要,一把滿足,這真實嗎?
……
所以,現在可以發Nature了嗎(劃掉)
用戶需求
某高校課題組有5臺工作站,雖然機器比較老舊,但平時大家協商著劃分時間輪流跑任務,甚至還有排半夜的。整體來說,資源也勉強夠用。
最近該課題組新增了幾名成員,并申請到了幾個科研項目,需要使用COMSOL做大量仿真計算,這就直接導致了計算資源捉襟見肘。
現在的問題點主要有三個:
1、人多了,難管理,資源利用率整體很低;
2、他們也用過超算,但是資源是共享的,有隨時被搶走的風險,心里沒底,而且沒法跟本地連到一起來用;
3、本地的各種維護工作,應用升級,安裝配置等工作非常繁瑣,需要耗費大量時間手工操作。
實證目標
1、COMSOL任務能否在云端跑得更快?
2、fastone平臺的云解決方案能否同時利用好課題組的本地資源?
3、fastone平臺的資源能否提供更大的用戶權限?
4、fastone平臺能否將各種維護工作降到最低?
實證參數
平臺:fastone企業版產品
應用:COMSOL Multiphysics
場景:電磁場分析、風力發電機噪音分析、HVAC導管流線分布等
系統:Windows/Linux
云端配置:計算優化型實例/網絡加強型實例
架構圖:
實證過程
一、Windows還是Linux?這是個問題
COMSOL同時支持Windows和Linux系統的集群計算。用戶一直使用的是較為熟悉的Windows版本。
現在,讓我們默念三遍:Windows的世界,一切都要錢的。
單機跑的情況下,這不是什么大問題。但一旦涉及到多機多核運行任務,問題就大了。
比如:主流云廠商對不同操作系統鏡像有不同的定價方式。整體來說,通過Windows系統使用云資源價格比Linux系統要貴。
因此,使用Linux替換Windows也可以有效節省成本。
所有,都要錢。
總之,不是長久之計。
而如何從Windows系統轉換到Linux系統呢?
這就跟習慣了用Android系統的人,換成iOS一樣。一旦適應,操作就如絲般順滑。
為了確保這一點,我們支持用戶在Linux系統中使用圖形化界面操作COMSOL任務,用戶只需熟悉一下Linux的常用操作與工具(如瀏覽器、文本編輯器),即可在很短的時間內上手,操作習慣幾乎無需改變。
而這也為今后用戶在Linux上多機集群化跑COMSOL打下了省錢的基礎。
二、多機并行,不同的打開方式決定了運算效率 根據我們的經驗,COMSOL的情況與Fluent類似。
當核數較低時,性能提升與核數基本成正比;而當云端核數逐漸增加后,由于節點間通信開銷指數級上升,性能的提升會隨著線程數增長逐漸變緩。關于如何解決節點之間數據交換造成的通信開銷問題,可以參考Fluent和LS-DYNA這兩個應用實證:
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
下圖可以看到我們推薦用戶使用的網絡加強型實例對比計算優化型實例的效果。
基于Linux系統多機模式計算,在云端使用16-96核不等的計算資源運行兩組COMSOL任務,可以觀察到當計算資源線性增加時,任務耗時呈線性減少。
網絡加強型實例可以有效解決COMSOL任務通信開銷問題。
fastone平臺可以根據用戶需求和任務特性,為用戶推薦最適配的云端配置。
甚至,我們的Auto-Scale功能可以根據不同的用戶策略,比如成本最優還是時間優先,自動化跨區、跨類型為用戶調度云資源,完成計算任務。
至于不同策略具體怎么落地執行?
相比時間優先策略,成本優先怎么做到降低成本最多達67%-90%?
在這篇實證《生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》里體現得十分明顯。
而即便是比拼單機性能,由于云上機型更新速度快,相比課題組本地老舊的工作站單機性能也提升了超過三分之一。
關于單機和多機計算背后的詳細原理和意義,可以參考VCS應用實證《EDA云實證Vol.7:揭秘20000個VCS任務背后的“搬桌子”系列故事》
云上資源的更新有多快?看這篇《國內超算發展近40年,終于遇到了一個像樣的對手》
三、多人并行又是個什么東西?
多機并行有了,多人并行又是個啥?
如果在本地工作站場景,多人并行就是幾臺機器就是幾個人用唄。使用我們平臺,用戶數量和機器數量不再直接掛鉤。更不用說云端無限資源帶來的幾乎無限的人員擴容空間了。
這就不可避免地涉及到了權限和角色管理的問題。fastone平臺的權限和角色管理功能,支持管理員角色對每一個用戶進行相關權限設定,包括預算使用上限和CPU核數使用上限。
多機并行+多人并行,簡單來說就是,要啥有啥。
四、本地云端統一平臺,既不操心,又不心疼,還劃算,還簡單
1、當然是大大優化整體效率。
由于課題組在平臺上跑的應用遠不止COMSOL一種,fastone平臺可對不同應用、不同資源、不同成員的使用情況進行整體監控與評估,并為課題組提供合理化建議,極大地提升了整體效率。
2、本地工作站不再閑置,用滿不心疼
課題組導師覺得放著本地工作站不用簡直就是“浪費”。在獲取外部資源的同時,還是希望能夠將本地的工作站資源給充分利用起來,不然可太心疼了,畢竟當年也是花大價錢買來的。
我們為課題組提供了一個混合云平臺。
當用戶處理日常任務時,可以只在本地運行。
而當本地資源不足以應付時,直接自動連接云端海量資源進行運算,操作相當方便,完全不改變用戶的操作習慣。
3、本地軟硬件資源維護,不用操心
課題組的本地環境是需要持續維護的。有老師跟我們吐槽說,一天天地忙著維護環境,整得跟運維工程師一樣了,太耽誤事兒。想找學生幫忙吧,他們很多也不懂啊~老師們的碩博后們也苦不堪言,本專業要學的東西已經多到爆炸,又要理論還要搞實驗,還要學大量計算機專業知識……
我們的云上運行環境都是自動化配置的,不需要人工干預,用戶還可以通過平臺進行統一管理和監控,方便易操作。
五、超算,是完美的解決方案嗎?
1、超算資源是無法與本地資源做成一個整體平臺,統一管理的。所以,既沒有整體監控和管理,又沒有混合云,還沒有自動化維護。
當然,Auto-scale也肯定沒有。
下圖是開啟Auto-Scale功能后,用戶某項目一周之內所調用云端計算資源的動態情況。
2、不同于超算的共享模式,我們提供的是絕對不會被搶走的獨占資源。
這點可太重要了:
1)云資源在任何情況下都不用會被搶走。而超算由于要優先服務國家級科研項目,在某些情況下,即便已經分配到的超算資源,也有可能會被無條件收回;
2)可根據用戶的習慣和應用的特性自由選擇操作系統,沒有任何限制;
3)提供完全開放的管理員權限,應用安裝靈活,且fastone針對市面上常見企業級應用均進行過云原生優化,可隨時提供技術指導;
4)用戶可隨時安裝所需的依賴組件。
5)獨占資源,安全。
關于超算與云計算在整體規模、使用體驗、計費方式、商用門檻、更新周期、合作生態、云端支持等方面的全方位對比,可以掃碼添加小F獲取完整版白皮書。
實證小結
1、fastone平臺完美支持COMSOL的基于不同用戶策略的多機和多人并行,可大大提升任務效率;
2、fastone支持搭建本地云端統一的混合云平臺,完全不浪費本地資源,本地資源不足時自動溢出到云端,操作還簡單,提高整體效率;
3、fastone平臺提供獨占資源,絕不會被搶走,開放管理員權限,安全靈活;
4、fasonte平臺環境完全自動化配置,無需手動維護,省事。
本次CAE行業Cloud HPC實證系列Vol.11就到這里了。下一期的CAE云實證中,我們聊Abaqus。
高效、方便、安全、穩定、省錢……我們對于高校科研的提升遠不止于此,更多有關fastone高校科研云平臺的疑問與解答
請掃描二維碼添加小F微信(ID:imfastone)獲取《這一屆科研計算人趕DDL紅寶書:學生篇/老師篇》
關于fastone云平臺在其他應用上的具體表現,可以點擊以下應用名稱查看:
HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA │ MOE Virtuoso
- END -
我們有個為應用定義的CAE云仿真平臺
集成多種CAE/CFD應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書
歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
這一屆科研計算人趕DDL紅寶書:學生篇
楊洋組織的“太空營救”中, 那2小時到底發生了什么?
速石科技獲元禾璞華領投數千萬美元B輪融資
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
速石科技成三星Foundry國內首家SAFE云合作伙伴
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”
【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
在《你是我的榮耀》這部劇中,楊洋飾演的男主于途是一個心懷夢想的航天設計師。在前往西北衛星測控中心搶救JX-1號衛星的劇情里,涉及到了大量的航天專業知識。
當中心領導脫口而出:“趕緊做仿真驗證”,瞬間觸發我這顆新生代農民工雷達:
開多少核?
要做多久?
要排隊嗎?
來得及嗎?
要上云嗎?
……
錯了,是這張:
仿真立功!衛星拯救大作戰
事情是這樣的:
衛星發射之后,需要時不時地給地面發射信號,報告自己的狀態。
但是在某天夜里飛過我國地面監控站范圍的時候,地面站沒有收到JX-1的信號。
地面站主動聯絡了衛星,也沒有得到回復。換句話說,JX-1失聯了。
兩位JX總體設計師——于途(楊洋)和關在(潘粵明),被緊急召到西北衛星測控中心處理問題。
衛星失聯有很多原因,會上一時也沒討論出個所以然。
回到酒店后,老潘已經累到躺平,楊洋不肯放棄并順利開啟了主角光環,在查閱了相關資料后,認為衛星故障可能是太陽風暴引發的高能粒子所造成的。
兩人立馬半夜趕回中心繼續開會。在中科院空間所確認衛星故障的時刻與發生太陽風暴的時間重疊后,中心領導指示相關人員立刻去做仿真驗證,確認事故原因。
兩個半小時后。仿真結果出爐:JX-1衛星軌道和太陽風景導致高能電子暴范圍的確是匹配的,可能有粒子打進了兩臺測控應答機的內部,使應答機產生了故障,進而影響了整顆衛星的通信系統。
故障原因確定了,接下來就是一系列搶救措施:
1、應答機的接受指令功能使用模擬電路搭的,不受高能粒子影響,盲發重啟指令重啟衛星應答機恢復通訊;
2、發現衛星耗電過大,關閉非必要單機以節省電源;
3、進一步發現無法控制衛星姿態和軌道,切換到備份控制器;4、切換成功后調整姿態,展開太陽能充電板對準太陽定向充電(這一條據說是BUG)。
衛星滿血復活,撒花。
從69天的太空營救到“數字太空”
現在的西安衛星測控中心,有一套我國研發的 “數字衛星”系統。系統中,太陽能帆板、推進器、應答機,甚至是一顆小小的螺絲釘,都能通過可視化、數字化的方式模擬仿真出來。
這套系統的研發,就是因為15年前的一次“太空營救“。
我國某顆遙感衛星突發故障,在太空中急速翻滾,與地面的聯系時斷時續。出事的衛星遠在太空,看不見摸不著,只有海量的、碎片化的遙測數據。
前一天完成的數學模型,第二天就會發現完全錯亂。
西安衛星測控中心的技術團隊通過整理收集海量衛星平臺、遙測數據,以及多年搶救衛生的實際案例,在計算機中大量模擬仿真復現了衛星上的故障,并進行了針對性修復。
經過整整69天的“太空營救”,順利讓衛星“起死回生”。
從此,開啟了“數字衛星”系統的研發。
現在,我們的視野已經從小小的衛星拓展到了整個宇宙空間,通過研究大規模實體仿真推演計算框架,構建衛星、測控站、望遠鏡和雷達等實體數字模型,通過系統集成形成“數字太空”系統。
仿真不總是扮演航天“救火隊長”的角色
2019年12月27日,“實踐二十號”衛星在中國文昌航天發射場搭載長征五號遙三火箭升空。
衛星發射前,西安衛星測控中心的工程師們便通過多種最優化方法,仿真計算了火箭將衛星送到不同遠地點高度下的10余份方案預案。
衛星上天之后,他們還要通過仿真計算出在衛星當前的軌道狀態下,怎樣才是最節省燃料的變軌策略,確保衛星準確完成變軌,并盡可能延長衛星的工作壽命。
針對日益增多的空間物體,在軌衛星在進行變軌機動時,需對大量空間物體進行高精度的軌道預報計算,以預防在軌航天器與其他空間天體的碰撞。
而在今年發射的“天問一號”火星探測器的背后,也有著仿真的貢獻。
在“天問一號”升空、下降和行星表面巡視等階段,航天器外部溫度、氣壓、風速等參數的復雜變化,對航天器壁面壓力的承受能力、不同位置表面壓力分布狀況的精確計算等提出了很大挑戰,甚至會對航天器內部儀器的正常運轉產生不利影響。
為什么要仿真,做實驗它不香嗎?
實驗和仿真是認知世界的兩種方式。
仿真是建立在一定的數理模型基礎上,是把現實的空間和時間分割成很小很小的單元,然后在這些很小的單元里,一次次反復求解線性關系。
而實驗永遠不可能做到對現實百分之一百地模擬。尤其是航天仿真,太空離我們實在過于遙遠,看不見摸不著。
在兼顧成本和可行性的前提下,仿真就成了很好的認知世界的方式。
現在通過仿真,我們可以做很多事情:
我們可以對宇宙進行建模,對宇宙進行觀測,了解宇宙的加速膨脹;
我們可以模擬地球周圍的磁流體動力學,根據太陽風預測行星側擾動。
我們正在接近人類進行太空旅行和太空探索的另一個黃金時代。
下一步征程,是太陽
我國在太陽探測衛星方面一直缺席,第一顆綜合性太陽探測衛星——先進天基太陽天文臺(ASO-S)預計于2022年發射,其設計目標是揭示太陽磁場、太陽耀斑和日冕物質拋射的形成與相互關系。
在夸父追日、后羿射日、金烏負日等古代神話傳說之后,科技的發展讓我們終于有機會看到更加真切的太陽。
半個多世紀來,仿真技術支持著人類航天事業,從繞地軌道到月球,到火星,到冥王星,再到無限遙遠的深空。
我們已經造出了見過最多星星的兔子。
千百年來眺望的星空,正等待我們前往探索。
就像劇里說的——
在茫茫宇宙中
尋找地球和人類起源的真相
在無窮無盡中
尋找另一個神跡存在的可能
證明人類不孤單
- END -
我們有個CAE云仿真平臺
集成多種CAE/CFD應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
速石科技獲元禾璞華領投數千萬美元B輪融資
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
AI太笨了……暫時
速石科技成三星Foundry國內首家SAFE云合作伙伴
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”,竟然是Ta……
【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書
EDA云平臺49問
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
疲勞分析是設計和優化需要高耐用性和可靠性的產品的關鍵步驟。疲勞失效分析有助于識別故障點,防止產品故障、召回甚至災難性事件。通過仿真預期的零件載荷,工程師可以優化其設計的抗疲勞性、可靠性和性能。
疲勞是材料中在承受循環載荷時發生的失效機制。在疲勞失效中,即使施加的應力低于屈服應力或單次施加載荷損壞材料所需的應力,在重復載荷下也會在材料中形成裂紋。
構件的疲勞是個復雜的過程,受多種因素的影響,要精確地預估構件的疲勞壽命,需要選擇合適的模型,這就需要宏觀力學方面的研究,包括疲勞裂紋發送、發展直至破壞的機理,還需要微觀力學方面的研究包括位錯理論等。此外,還涉及到金屬材料科學、材料力學、振動力學、疲勞理論、斷裂力學和計算方法多門學科。只有更深刻地認識了疲勞破壞的機理,將宏觀和微觀研究結合起來,才能更精確地預測壽命。
疲勞主要有兩種類型:
疲勞失效是由于載荷的循環性質而發生的漸進過程。這會導致材料中的微觀缺陷逐漸長成宏觀裂縫。從那里開始,疲勞遵循三個連續的階段,最終導致骨折:
疲勞分析涉及幾種方法,最突出的是:
應力壽命方法涉及根據失效周期數繪制施加的應力水平。當預期應力不超過材料的彈性極限(屈服點)時,應力-壽命法用于高周疲勞。
因此,應力壽命法可以通過線性材料模型有限元分析仿真來支持,以預測預期應力。
應變-壽命法繪制應變幅度與失效周期數的關系圖。當某些應力超過材料的彈性極限(屈服點)時,它用于低周疲勞。
因此,應變-壽命方法需要非線性彈塑性材料模型有限元分析仿真來預測預期應力。
使用LEFM方法預測疲勞裂紋擴展長度。它精確計算脆性材料的斷裂應力,其中裂紋缺口處的應力場是彈性的。但是,它沒有考慮凹口處延展性材料中發生的塑性流動。它需要進一步修改以解釋塑性區斷裂。這被稱為歐文的斷裂理論,改編自格里菲斯準則,據說是彈塑性斷裂力學的基礎。
目前市場上主流的仿真分析軟件較多,可以實現疲勞分析的軟件也較多,如SIMULIA的FE-Safe、ANSYS nCode DesignLife、MSC Fatigue、MSC Nastran及HyperLife、Simulation等,其中FE-Safe、ANSYS nCode DesignLife兩款軟件應用較為廣泛。Fe-safe采用世界上最先進的疲勞分析技術,是一款擁有豐富疲勞損傷算法、擁有更全面的材料庫,并且操作簡便的耐久性疲勞分析軟件。由于Fe-safe疲勞算法基于海量的工程實踐,另外,客戶的反饋也表明,Fe-safe可以給出準確的疲勞點和疲勞壽命預測。MSC Fatigue是一款功能較為全面的疲勞設計軟件,在分析領域也廣泛應用
平均應力校正是影響疲勞分析的另一個因素。它考慮了可變載荷條件對材料疲勞的影響。平均應力校正因子用于調整驅動力或 S-N 曲線,該曲線將應力幅度與失效周期數相關聯。
平均應力校正因子的準確性會顯著影響設計的疲勞壽命預測,因此使用可靠、準確的仿真和疲勞分析軟件非常重要。在許多情況下,用于設計的S-N曲線假設疲勞壽命的最壞情況,無需使用平均應力校正因子。
疲勞測試是疲勞分析的重要組成部分。它涉及對材料或結構進行循環載荷并測量由此產生的疲勞損傷。了解材料和結構疲勞特性和行為對于剩余壽命評估和斷裂力學分析至關重要。
為了使用這些方法中的任何一種準確預測組件的疲勞壽命,首先需要預測預期的最小應力、平均應力、最大應力、應力幅度、應力范圍和相關性。這就是仿真,特別是FEA結構仿真可以提供幫助的地方。
通過模擬具有正確材料屬性的組件的預期載荷,可以假設疲勞分析的應力應該是多少。您可以將馮米塞斯等效應力或主應力作為疲勞分析的輸入。
速石CAE仿真平臺的主要優勢之一是能夠快速輕松地仿真您的設計,同時準確捕獲設計細節。
這使您能夠模擬真實的加載和邊界條件,并準確預測產品在負載下的行為。借助 速石CAE云平臺,您可以輕松迭代和優化產品設計,以提高其耐用性、可靠性和整體性能,而無需專業硬件或昂貴的軟件。
根據仿真獲得的平均應力值,可以使用諸如Gerber,Goodman和Soderberg之類的關系,這些關系將平均應力幅度與疲勞壽命相關聯,也稱為恒定壽命圖。下圖提供了恒定壽命圖的示例。
總之,疲勞分析和仿真是產品設計和工程中的關鍵步驟,可以幫助您了解和預測由循環載荷引起的材料和結構失效。通過使用應力-壽命和應變-壽命等方法,并考慮平均應力校正、耐久性極限、疲勞裂紋擴展和概率疲勞分析等因素,您可以確保產品的耐用性和可靠性。立即聯系速石科技,詳細了解它如何幫助您優化產品設計。
END -
我們有個CAE仿真研發云平臺
集成多種CAE/CFD應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書
歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
研發/IT工程師雙視角測評8大仿真平臺,結果
八大類主流工業仿真平臺【心累指數】終極評測(上)
2023仿真宇宙漫游指南——工業仿真從業者必讀
當仿真外包成為過氣網紅后…
和28家業界大佬排排坐是一種怎樣的體驗?
這一屆科研計算人趕DDL紅寶書:學生篇
楊洋組織的“太空營救”中, 那2小時到底發生了什么?
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
調研委托Peerless Research Group進行,包括仿真研發和設計工程師、工程經理、IT經理和高管,一共747人。
老規矩,先看幾個重要結論——
縮短設計周期是一半以上用戶在工作中面臨的最大挑戰;
超過五分之一的人表示,他們最重要、最頻繁的仿真必須通宵運行至少9至48個小時以上(2014年為近四分之一);
由于周轉時間的限制,大約三分之一的人降低了幾乎所有模型的大小或精確度;
使用云資源的人越來越多。超過四分之一的受訪者表示,使用云解決方案可以減少模擬的周轉時間限制,高于2014年的12%;
企業已經從以工作站為中心的工作流轉變為利用部門集群、云資源、移動設備和傳統工作站的混合;
有18%的受訪者正在使用云進行工程仿真,另有18%的人計劃在未來12個月內使用云;
使用128個以上CPU核計算資源的用戶比例是6年前的3倍。
以下是我們節選并整理的報告原文,完整報告可以掃描二維碼聯系小F獲取。
報告指出工程師正在面臨越來越大的壓力,要求他們更快地完成更好的設計。
52%的人表示在工程設計中所面臨的最大業務挑戰是如何縮短設計周期,其次才是對質量和創新的要求。
設計周期究竟冗長到了什么地步?
報告顯示,21%的工程師經常有需要連續通宵執行9至48個小時以上的仿真任務。
在中型公司(100-999人)這一比例甚至達到了25%。
如何才能把需要數天的超大規模仿真任務壓縮到短短幾小時之內:《從4天到1.75小時,如何讓Bladed仿真效率提升55倍?》
為了完成這些“超長待機”的仿真任務,工程師必須要獲取大量的計算資源。
在2014年的報告中,只有10%的人使用超過32個以上的內核,僅僅3%的受訪者使用了128個以上的內核。
如今,使用多核資源運算仿真任務的用戶比例大幅增長。有44%的用戶使用了12個以上的內核并行處理其最大的仿真應用程序,18%的用戶使用的內核數量超過36個,9%的人使用超過132個內核。
預計今后使用更多內核的用戶比例將繼續增長。25%的受訪者希望在未來的12個月內能夠使用36個以上的內核來運行仿真任務,13%的受訪者則希望擁有132核以上的仿真資源。
2020年,世界上絕大多數的主要經濟體都出現了一定程度的經濟下行,許多企業也在精打細算過日子,不少項目甚至被整個砍掉。
但當被問未來仿真解決方案的預算會增加還是減少時,31%的人表示在未來12個月會增加更多的預算,35%的人表示保持不變,只有9%的人會減少預算。
“這凸顯了HPC資源在工程仿真方面的重要性,” Ansys戰略合作伙伴關系總監Wim Slagter說,“盡管全球范圍內的新冠大流行引發了經濟動蕩,但只有9%的受訪者表示將減少使用HPC仿真預算。顯然,很多工程組織都看到了這項技術在提升生產率方面的價值。”
在整個設計周期中更高頻地運行仿真的能力是一項至關重要的競爭優勢。
更快,更高頻,更準確的仿真可以加快產品上市時間,并帶來更好的產品。但是,受現有資源的限制,許多公司無法充分利用仿真的潛力。
當前工程仿真的主要矛盾已經轉化為工程師日益增長的算力需求同企業落后的計算資源之間的矛盾。計算資源的限制導致許多工程師無法充分發揮仿真應用的潛力。
在各種規模的企業中,缺乏計算資源是常態。
33%的受訪者因為總是排不到資源而不得不對仿真模型的細節大小和數量進行限制,另有42%的受訪者有超過一半的概率會遇到這種糟心事,只有25%的受訪者表示幾乎不存在這種困擾。
對仿真模型細節大小和數量的限制嚴重影響了結果的質量。
有20%的受訪者報告說他們總是因為仿真細節的大小和數量受限而導致低保真結果,52%的受訪者表示這種情況發生的概率超過一半。
新冠疫情的蔓延讓全球很多企業都迅速改變了工作模式和策略。
面對疫情的影響,51%的受訪者認為最需要優先解決的事情是提高IT運營效率,從而更好地利用硬件和軟件資源;48%的受訪者則認為需要優先考慮采用遠程協作和數據管理工具來應對新冠疫情帶來的變化。
47%的使用者認為公司設計團隊及IT支持團隊缺乏相應的能力,導致他們難以更大規模地使用仿真工具,提升仿真效率。
44%的受訪者表示他們缺乏能使用相應仿真技術的IT硬件和支持性基礎架構。
30%的人認為公司并不重視對仿真技術和數字原型的使用。
6年來,典型的工業仿真計算場景已經從單個工作站這種單機模式逐漸演變為包含工作站、筆記本、集群和云端的復雜混合環境。
當被問及公司通常在什么環境下運行仿真應用時,有43%的受訪者表示他們僅在臺式工作站或筆記本上跑任務。
雖然這一數據相比2014年的63%有著顯著的下降,但從公司規模分析,IT能力更強的大公司比例為34%,而IT能力相對更弱的中小公司比例為50%。
從單機到集群
從集群到云端,包括純云、混合云
再到多云、跨不同地域的協同管理
每一步對企業的傳統IT管理和運營工作都是重大挑戰。
在這個實證中,我們沒有給用戶增添任何新計算資源,僅通過IT層面的優化就讓用戶運算20000個VCS任務的效率提升了50倍:《EDA云實證Vol.7:揭秘20000個VCS任務背后的“搬桌子”系列故事》
更重要的是,怎么才能減少仿真設計工程師的IT負擔,讓他們能專注于設計本身。
讓那些需要人工低效做的事,自動化高效處理。
把一堆需要寫的代碼,變成圖形化操作界面。
用筆記本也能跑大規模的任務。
fastone平臺讓用戶可以不改變使用習慣,自動化地完成工作:
直接通過圖形界面提交任務《怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?》
使用DM工具簡單高效進行數據傳輸《LS-DYNA求解效率深度測評│六種規模,本地VS云端5種不同硬件配置》
與6年前相比,升級和替換計算硬件仍然是提高仿真性能的最重要的策略之一。
將近一半(48%)的受訪者傾向于升級現有硬件,而43%的受訪者更喜歡直接購買新設備。
36%的受訪者希望公司能夠購買更多的許可證,這樣他們就可以用更多的計算資源來跑仿真任務。
超過四分之一(28%)的受訪者表示會通過上云來提升仿真性能,這一比例在6年前只有12%,提升幅度最大。
上云已經成為加快仿真效率的一個重要解決方案。
上云有哪些好處?
56%的受訪者認為是協同與監控能力。
53%的人認為云端短時間內能夠獲取計算資源的能力非常突出。
我們調度了十萬核CPU,幫助用戶將原本預估數年的超大型任務壓縮到了一天以內:《提速2920倍!用AutoDock Vina對接2800萬個分子》
關于fastone云平臺在其他應用上的表現,可以點擊以下應用名稱查看:HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA
我們有個為應用定義的計算云平臺——
集成多種應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
- END -
更多電子書
歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
2小時,賬單47萬!「Milkie Way公司破產未遂事件」復盤分析
高情商:人類世界模擬器是真的!低情商:你是假的……
【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書
EDA云平臺49問
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
在風力發電機組的各個設計階段,優化設計都是重中之重。如果不能正確地對載荷、惡劣環境和結構完整性進行建模,或不能執行準確試驗,都可能會極大地危害機組長期的安全性、功能性和盈利能力。
風力機設計項目經常需要進行大量仿真計算,一組仿真計算耗費數千小時的計算機時。
一方面,算力在總量和項目波峰波谷期的彈性供應上能否滿足需求。充足的算力意味著縮短產品上市時間,拉大市場優勢。
另一方面,超大規模算力的調度使用和企業場景的復雜性帶來的管理等問題對IT自動化和智能化要求很高。如何調度超大規模集群的過程,還有其中隱藏的成本優化問題,其實很多。
怎么解決這些問題?
我們拿實證說話。
某風電新能源集團建設有本地機房,但機器較陳舊,資源有限。跑Bladed仿真任務計算周期長,特別是有大型仿真任務時,往往需要數周甚至數月才能出結果。
用戶要求將跑大型任務的時間縮短到一天以內,同時能夠對任務進行管理和監控。
1. Bladed任務能否在云端有效運行?
2. fastone平臺能否將大規模Bladed仿真任務周期縮短到一天?
3. fastone平臺能否提供高效靈活的數據傳輸方案?
4. fastone平臺能否提供有效的任務管理和監控?
平臺:
fastone企業版產品
應用:
Bladed 4.10版
操作系統:
Bladed 4.10之前的版本不支持Linux系統,只支持Windows。
本次實證由于用戶更熟悉Windows操作系統,所以并未選擇Linux鏡像。
主流云廠商對不同操作系統鏡像有不同的定價方式。整體上來說,通過Windows系統使用云資源價格比Linux系統要貴。
適用場景:
構建風力發電機性能模型,運行仿真計算并處理結果,為工程師提供有關風力機動力學和優化的重要決策信息。
License配置:
Bladed License Server設置在云端。
云端硬件配置:
Bladed是一個計算密集型應用,對CPU要求高、內存要求不大,因此平臺為用戶推薦選擇了滿足其應用特點的計算優化型實例機型。
調度器:
因為選擇了Windows操作系統,所以本實證中集群調度使用的是PBS調度器。
技術架構圖:
用戶通過Web方式登錄構建于公有云上的fastone算力運營平臺,根據實際計算需求自動創建、銷毀集群,提交計算任務,上傳下載任務,監控管理。
用戶通過NAT方式訪問位于公網的License服務器。
用戶通過VPN接入,可更安全地訪問云上私密的HPC環境。
9600個用例
----------------------------------------------------
本地VS云端300核
結論:
1. 云端可提供滿足Bladed應用特點的機型,運行Bladed Windows版本的任務;
2. 本地資源運算9600個用例,耗時約4天;通過fastone平臺調用300核計算優化型實例運算9600個用例,總耗時約8小時,任務運行時間7小時;
3. fastone平臺的自動化伸縮,有效降低整個計算周期資源占用率;
4. fastone平臺能提供靈活高效的數據傳輸方案,滿足計算數據量大需求;
5. fastone平臺可穩定運行Bladed任務、測試過程中未發生服務中斷;
6. fastone平臺可監控、管理任務與集群的運行情況。
實證過程:
數據傳輸優化:
Bladed的風文件和任務文件數據量極大,傳統傳輸模式往往會面臨以下問題:
1、初始化大文件傳輸。在本實證中,用戶在跑任務之前需要上傳多達數百GiB的風文件;
2、隨著任務的調整,有大量小文件需要增量上傳。在本實證中,用戶需要上傳9600個任務文件,每個幾十MiB不等。
fastone支持全自動化數據上傳,可充分利用帶寬,幫助用戶快速上傳、下載海量數據。同時,利用fastone自主研發的分段上傳、高并發、斷點續傳等數據傳輸技術,優化海量數據的傳輸效率。
自動化部署:
在手動模式下,通常都是先構建一個固定規模的集群,然后提交任務,全部任務結束后,關閉集群。在本實證中,如果是手動部署,300核的集群一旦拉起,第一到第五步手動配置的時間里,所有機器一直都是開啟狀態,也就是說,燒錢中。
更詳盡的涉云成本計算,可參考:幫助CXO解惑上云成本的迷思,看這篇就夠了
再看看我們的自動化部署:
在本實證中,fastone平臺在任務的不同階段采取不同的策略應對,除任務運行的7小時內有300核云資源滿負荷運作以外,在數據處理和結果數據上傳階段均只開啟了1-2臺機器,而其他準備過程不需要開啟機器。
很重要的一點是:任務完成后會及時下載結果并自動關機。
fastone的Auto-Scale功能可以自動監控用戶提交的任務數量和資源的需求,動態按需地開啟所需算力資源,在提升效率的同時有效降低成本。
用戶可根據自己需求,設置自動化調度集群規模上下限。
詳細分解手動模式 VS 自動部署,看這里:EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
任務和集群管理:
提交任務后,可以在監控界面中查看任務和集群運行情況。
9600個用例
---------------------------------------------------------
云端300核 VS 3000核
Bladed應用具備線性擴展性。
當我們把自動化調度集群規模上限設為3000核,任務運行時間從7小時縮短到45分鐘,整體計算周期也從8小時縮短至1.75小時。
實證過程:
本實證中,單個任務運行時間為10-30分鐘,當有任務提前運行完成且數據下載完后,相應的機器會自動關閉,避免資源浪費。
最后我們回顧一下實證目標:
1. Bladed Windows版本任務在云端能夠有效運行;
2. fastone平臺成功將大規模Bladed仿真任務的運算時間從4天縮短到1~7小時;
3. fastone平臺能夠提供靈活高效的數據傳輸方案;
4. fastone平臺能夠提供可靠的任務管理和監控。
除了Windows系統,我們還支持通過fastone平臺同時調度任務至本地和云上的Windows節點和Linux節點,滿足業務需求。同時,我們也支持SLURM/SGE/LSF等主流調度器,本次實證未曾涉及。
本次CAE行業Cloud HPC實證系列Vol.2就到這里了。
在下一期的實證中,我們將利用速石平臺,在混合云場景下調度集群運行CAE分析,使LS-DYNA模擬性能得到極大提升。
未來我們還會帶給大家更多領域的用云“真香”實證,請保持關注哦!
- END -
2分鐘自動開通,即刻獲得TOP500超級算力
點擊下圖立即體驗
2020年新版《六大云廠商資源價格對比工具包》
添加小F微信(ID: imfastone)獲取
你也許想了解具體的落地場景:
2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領域年均復合增長率超21%
EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發未來
關于云端高性能計算平臺:
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
靈魂畫師,在線科普多云平臺/CMP云管平臺/中間件/虛擬化/容器是個啥
花費4小時5500美元,速石科技躋身全球超算TOP500