左圖名字叫做:守護現金流
這年頭現金流的重要性,不必多說。
右圖名字叫做:人生就是一場豪賭
不管是初創(chuàng)IC設計公司還是成熟公司,新開始一個項目,總是面臨著前路未知的情況:
1. 周期性存在突發(fā)算力高峰需求,涉及到先進制程問題更加顯著;
2. 每次調整制程,都面臨新的資源預估,永遠估不準;
3. 可能需要某些內部不可用的內存和計算資源。
我們今天認真盤一盤,怎么把這門藝術拉下神壇。
先給大家一個直觀感受。
下圖是我們某客戶全生命周期月度算力實際用量曲線:整個芯片項目全流程為18個月,涉及前端、驗證、后端三大團隊。
1. ?前4個月,只涉及到前端布局與架構,對于算力需求不高,因此月度算力需求較少;
2. ?從5月開始,前端、驗證、后端均開始工作,算力開始逐步提升,第11個月達算力小高峰,在第16個月達算力最高峰,月度調度峰值達到百萬級核時以上;
3. ?算力波峰和波谷的核數差距在20倍以上;
4. ?算力在第16個月達到最高峰后,迅速下降。
下面我們手把手教你怎么把算力規(guī)劃拉下神壇:
Part 1 小白版算法
針對的是:項目全新,團隊人員也比較新,需要從零計算
Part 2 老司機版算法
針對的是:項目全新,但有類似經驗的老人在團隊,可以憑經驗值估算
PS:Part 1和Part 2 二選一閱讀即可
為了簡化計算,我們根據現實情況作以下假設:
1. 研發(fā)團隊總人數為100;
2. 團隊分為前端、驗證和后端3部分,人數比值2:1:1;
3. 芯片的全周期分為3個階段,每階段4個月 (僅適用小白版算法);4. 三個團隊主要使用資源類型:前端團隊使用計算型機器;驗證團隊前期使用計算型機器,之后使用內存型機器;后端團隊使用內存型機器 。
這套小白版算法是我們根據N家客戶的實際情況,得出的經驗參考值:包括不同階段,不同團隊的人員配比與人力占用比例,每人job數,每人每job峰值核數。
因實際團隊并非全程在此項目中,部分階段人力需折算,即人力占用比例。
在我們的參考值基礎上略做調整,大家就能大致得出自己公司的相應數值啦。
這套算法通過估算不同階段內、各個團隊所需的算力峰值之和,得出每階段的算力峰值。各團隊的峰值計算公式為每人每job峰值核數(多臺機器則為每臺核數*機器數)*團隊人數*每人job數(每個階段計算方式一致)。
① 階段工作詳情:前端從事設計相關工作,驗證團隊同步參與,工作狀態(tài)都較為穩(wěn)定,此階段每月峰值核數趨于一致;
② 涉及團隊:前端、驗證團隊;
③ 資源并發(fā)需求:前端團隊每人1臺10核、驗證團隊每人1臺20核。
該階段峰值核時計算(計量單位:核小時):
1月:10核*50人*1job=500
2-4月:前端團隊峰值核數=10*50*1=500 ;
驗證團隊峰值核數=20*25*1=500;
峰值核數總計為500+500=1000;
則該階段的峰值核數在2-4月,為1000
(下同,不再詳述這一計算過程)
① 階段工作詳情:涉及到前端仿真、驗證和部分模塊的版圖工作。6月在前仿最后階段做一次大仿真,是算力小波峰,隨后算力下降;
② 涉及團隊:前端、驗證和后端團隊;
③ 資源并發(fā)需求峰值:
5月:前端團隊每人1臺18核節(jié)點,每人1個job;驗證團隊每人4個job,每個job約18核(人力占用比例:75%);后端團隊每人1臺18核節(jié)點;
6月:前端團隊每人1臺24核節(jié)點,每人1個job;驗證團隊每人6個job,每個job約24核(人力占用比例:75%);后端團隊每人1臺18核節(jié)點;
7月:前端團隊每人1臺18核節(jié)點,每人1個job(人力占用比例:40%);驗證團隊每人3個job,每個job約18核;后端團隊每人1個job,每job約4臺18核節(jié)點;
8月:前端團隊每人1個job,每個job18核(人力占用比例:40%);驗證團隊每人2個job,每個job18核;后端團隊每人1個job,每個job約4臺24核節(jié)點。
計算結果如下
① 階段工作詳情:主要涉及后端仿真相關工作;
② 涉及團隊:驗證和后端團隊;
③ 資源并發(fā)需求:
9月:驗證團隊,每人4個job,每個job約18核;后端團隊每人1-2個job,每個job約4臺24核節(jié)點(后端人均完成1.6個job,取值1.6);
10月:驗證團隊每人6個job,每個job約24核;后端團隊每人1-2個job,每job約6臺24核工作節(jié)點(后端人力占用比例:80%,每人2個job);
11月:驗證團隊每人6個job,每個job約24核;后端團隊每人1個job,每job約4臺24核工作節(jié)點;
12月:驗證團隊每人6個job,每個job約18核;后端團隊每人1個job,每job約3臺24核工作節(jié)點。
計算結果如下
最終全生命周期算力需求圖如下(計量單位:核小時):
可以看出:
1. 和文章開頭的實際用戶算力曲線趨勢一致;
2. 不同月份間的峰值算力差異很大,能達到20倍左右;
3. 不同團隊在不同月份的峰值算力需求差異明顯。
如果對于未來芯片項目,你們有過來人能預估出不同團隊不同階段的算力需求,這套老司機版算法將完全適配你。
這套算法是我們根據有項目經驗的芯片研發(fā)團隊的實際情況,通過填入各月每job峰值核數、每月最大并行job數,計算出各團隊每月所需的算力峰值。
下面為大家奉上這份《XXX芯片項目-資源需求調研模板》:
左邊項目為不同的項目團隊。項目團隊內部可分為:前端、驗證和后端組。
Step 1:將不同組、每個job所需核數或內存的峰值需求,依次填入中間的“每job峰值核數”和“每job峰值內存”欄目下,負責人填入“團隊負責人”欄目下
例如:每個job需要的峰值核數為10,每個job需要峰值內存為20(據經驗值統(tǒng)計),前端負責人為Andy。
Step 2:在每月欄目下,填入各團隊預期的每月并行最大job數(簡稱:job數)
Job數可根據研發(fā)內部統(tǒng)計,也可根據job數=每人最大并行job數*人數進行計算,如團隊并非全程在此項目中,人力還需折算統(tǒng)計。
例如:2022年2-5月,前端團隊每人最大并行job數為1,團隊有50人,均100%投入在此項目中,則填入下表的job數均為:50*1*100%=50。
Step 3:計算各團隊當月峰值算力并相加,得出峰值算力總計(計量單位:核小時)
各團隊的峰值計算公式:每job峰值核數*job數(每個階段計算方式一致)。
例如:2022年2-5月,前端團隊的每job峰值核數為10,job數為50;2月驗證團隊還未開始任務,3-5月,驗證團隊的每job峰值核數為20,job數為25;2-5月,后端團隊還未開始任務。
計算過程如下
前端團隊:2-5月:10*50=500
驗證團隊:3-5月:20*25=500
將各團隊每月算力峰值相加,得到每月項目的算力峰值,計算得出項目各月算力峰值表
《XXX芯片項目-資源需求調研模板》Server一欄的Middle /High 型是用戶自己設定的不同機器配置,后期計算不同機型費用時會用到,跟算力需求計算無關。
不管是小白版算法還是老司機版算法,都是一個月每天全部按峰值需求跑任務的前提下進行計算的。但實際情況下,肯定不需要一直按峰值頂格跑。
我們折算一下:
全月全資源峰值用量:峰值核數*30天*24小時
全月實際用量可能是:峰值核數*22天*8小時
用小白版算法的數據來調整:
6月算力小波峰:后端按30天*18小時估算,驗證按30天*16小時估算;
10月算力大波峰:后端按30天*24小時估算,驗證按照30天*16小時估算。
得出下表,并繪制成相應曲線圖:
灰色曲線為按峰值計算的算力需求
橙色曲線為折算后實際需要的算力
好了,全生命周期算力需求算完了。到了算賬的環(huán)節(jié)了。
灰色代表當月按峰值頂格算的用量,橙色代表月度實際用量。
綠色代表本地資源,必須按這一階段需求峰值準備,也就是按灰色來準備。買不到峰值,肯定會影響到芯片項目進度。
如果是純本地,就是按綠色這根線買。現金流是必須要動用一大筆的了,采購周期也是必須要考慮的。
按照本文開頭我們某客戶全生命周期月度算力實際用量曲線,波峰、波谷間差距可高達20倍,月調度核時峰值能達到百萬級以上。頂格買……
如果是全云端,就是按橙色這根線花錢。想用就用,不想用就關掉,用了才花錢。現金流逐步平緩支出。
綠色線和橙色線中間的差距(圖中陰影部分),各人可能有各人的體會。
算力資源規(guī)劃VS現金流
芯片項目周期VS市場競爭格局
具體怎么權衡和取舍,還是要看企業(yè)自己。
一顆芯片設計完整生命周期下,不同階段,不同應用場景,對算力更精細的需求差異,我們相應的推薦和建議,以后再聊。
- END -
我們有個為應用定義的EDA云平臺
集成多種EDA應用,大量任務多節(jié)點并行
應對短時間爆發(fā)性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群
掃碼免費試用,送300元體驗金,入股不虧~
現在!我們的IC設計研發(fā)云平臺支持免費試用,還送200元體驗金掃碼免費試用~
如果你對這個一站式IC設計云平臺還有更多想問的,比如:
1、你們支持哪些EDA應用?能覆蓋到我常用的軟件嗎?
2、EDA應用所需的計算資源非常大,你們如何解決這個問題?
3、把EDA研發(fā)環(huán)境部署到云上有什么好處?
4、除了CPU,GPU/TPU/大內存的機器都有嗎?
5、你們說的“一整套即開即用的IC研發(fā)設計環(huán)境”是什么意思?從本地到云上,操作方式會改變很大嗎?
6、云端輸出計算結果是否與本地完全一致?
7、云端這么多的機器,管理得過來嗎?
8、云上有些資源很貴,有沒有節(jié)約成本的方案?
9、任務監(jiān)控也能用來省錢,你們是怎么做到的?
10、很多PDK,就有幾十T,怎么到云上,而且需要持續(xù)更新?
11、如何云上保護我們的IP資產?
12、腳本每日都有變動,云上要增加工作量?工作腳本如何更新?
13、云上的EDA軟件怎么部署安裝?
14、License Server配置在本地和云端對計算性能/一致性/穩(wěn)定性是否有影響? 15、使用平臺的工作人員比較多,能否對每個人設置使用資源的上限?
16、公司有海外研發(fā)部門,用你們平臺方便嗎?
17、怎么保障數據安全?
……答案都在這里,歡迎掃碼添加小F微信(ID:iamfastone)免費獲取~
關于為應用定義的云平臺:
續(xù)集來了:上回那個“吃雞”成功的IC人后來發(fā)生了什么?
這一屆科研計算人趕DDL紅寶書:學生篇
缺人!缺錢!趕時間!初創(chuàng)IC設計公司如何“絕地求生”?
速石科技獲元禾璞華領投數千萬美元B輪融資
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
速石科技成三星Foundry國內首家SAFE云合作伙伴
EDA云平臺49問
國內超算發(fā)展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
作者 | 高歌
編輯 | Panken
芯東西5月12日報道,2022年以來,新冠肺炎疫情對上海、深圳等地造成了較大影響,居家辦公在各行各業(yè)中變得十分普遍。上海作為芯片產業(yè)的聚集地,很多芯片設計公司也因此轉向居家辦公。
那么芯片設計在家就能夠完成嗎?
對芯片工程師來說,他們“畫”出芯片的“筆”就是EDA(電子設計自動化)工具。云端的EDA工具就是芯片工程師能夠居家辦公、用家用設備設計出芯片的關鍵。
但同時,上云對芯片企業(yè)來說并不輕松。如何兼容各類EDA工具、保障數據安全和運行速度穩(wěn)定,并能讓工程師快速上手,都是云平臺需要面對的挑戰(zhàn)。
如今,EDA云平臺產業(yè)遇到市場良機,而質疑仍存。
為此,芯東西采訪到了為芯片設計公司提供EDA云平臺的速石科技創(chuàng)始人、CEO陳熹,講一講芯片設計到底如何能夠在家完成。
01. 2021年芯片設計創(chuàng)企新增592家云端EDA成居家辦公關鍵
疫情之下,芯片創(chuàng)企正遭遇資金短缺、工作效率降低、流片時間不確定等多種困境。根據2021年中國半導體行業(yè)協(xié)會的統(tǒng)計,中國共有2810家芯片設計企業(yè),較2020年多了592家,同比增長26.7%。這些芯片設計公司大多集中在上海、深圳和北京三地,目前都面臨疫情影響。
從2017年至今,中國芯片設計企業(yè)數量從1380家增長到2810家,新增1430家。這意味著,全國一半以上芯片設計企業(yè)的創(chuàng)建時間不超過5年。2020和2021兩年,業(yè)界更是涌現出1030家新的芯片設計創(chuàng)企。
對于芯片設計公司來說,EDA(電子設計自動化)工具是他們賴以生存的必需品。疫情下,居家辦公的芯片工程師要依靠云端的EDA平臺工作。如果芯片設計公司選擇自行搭建云平臺,就意味著加大IT部門的投入。
而當芯片設計團隊進行仿真和驗證時,往往需要調用大規(guī)模的算力集群,其算力節(jié)點的數量從幾臺到幾千臺不等。在這樣大的算力環(huán)境下,整個集群算力的管理和調度、算力集群和存儲系統(tǒng)的交互,同樣需要一支專業(yè)的IT團隊進行操作。
但對大部分芯片創(chuàng)企來說,如果想要生存發(fā)展,就要盡早實現芯片流片,將產品交付客戶,芯片設計效率至關重要。這個過程中,芯片設計公司每一分錢都要花到刀刃上,往往缺乏額外的精力和資源搭建、運維自己的云平臺。在芯片設計團隊尚不完備的情況下,專業(yè)IT團隊過于奢侈。
當被迫居家辦公時,芯片設計公司正在面對種種挑戰(zhàn)。
作為資深從業(yè)者,一站式云平臺供應商速石科技的創(chuàng)始人、CEO陳熹告訴芯東西,家庭、個人設備缺乏芯片設計所需的專業(yè)并行計算環(huán)境、EDA工具、硬件以及支撐服務體系。
芯片工程師在居家辦公時會遇到硬件/網絡帶寬不達標、家用環(huán)境無法保障安全、團隊協(xié)作不順等諸多困難。同時芯片創(chuàng)企的業(yè)務規(guī)模會快速擴張,算力資源需求存在不確定性。
因此,對初創(chuàng)公司來說,一種可擴展、避免大量資金投入、能夠快速采用的云平臺或許是解決這些問題的關鍵。
02.EDA云平臺產業(yè)已至關鍵節(jié)點國內市場規(guī)模達百億元
除了創(chuàng)企,非初創(chuàng)芯片設計公司也對云平臺有著需求。從算力上來說,隨著芯片設計公司規(guī)模的不斷擴大、所研發(fā)芯片制程的演進,其算力需求也會增加。
如果擴充本地計算集群,芯片設計公司需要在硬件、場地、人員、運維等方面進行大量投入,且芯片設計的算力需求存在波動:任務數量低谷時算力閑置,高峰時任務需排隊進行。
有業(yè)內專家稱,投片前3個月,芯片設計公司對算力的需求是“無限”的。對這種波動型的需求,芯片設計公司單純地擴大本地數據中心規(guī)模,并不能很好地解決問題。即使是大型芯片設計公司,在計算需求不斷增大后,傳統(tǒng)的托管IDC計算模式仍可能出現問題,不能及時輸出成果,降低設計效率。
相比之下,云平臺可以更靈活地調用算力,任務高峰時可調用海量云端算力,低谷時則減少調用算力,能夠顯著提升芯片設計效率。
因此,自2010年、2011年起,Cadence、Synopsys等國際EDA巨頭開始提出了EDA上云的概念。之后,英特爾、英偉達等芯片巨頭開始探索EDA云工具的應用。2015年后,公有云架構逐漸穩(wěn)固,數據安全體系逐漸成熟。
如今,EDA云平臺的工具和運行環(huán)境已逐漸整合在一起,且產品能夠規(guī)模化地復制到不同的行業(yè),并提供給客戶。可以說,EDA云平臺產業(yè)已經到了商業(yè)化發(fā)展的關鍵節(jié)點。
隨著技術發(fā)展,EDA云市場正快速擴大。其中,大量新增的中國芯片企業(yè)撐起了一個價值百億的EDA云平臺市場。陳熹估計,截至2021年年底,中國EDA云平臺的市場規(guī)模大概達到一百億元,年復合增長率在20%以上。
快速發(fā)展的EDA云市場中,速石科技這樣的企業(yè)正在逐漸成為重要力量。
盡管亞馬遜、阿里云、華為云等主流云廠商的解決方案較為完善,但其產品和服務數量較為龐大,對芯片設計行業(yè)沒有針對性,界面也較為復雜,工程師學習存在一定門檻和成本。而較Cadence、Synopsys、西門子EDA等國際EDA巨頭的云平臺,速石科技采用EDA廠商中立、多云的環(huán)境和架構,能夠為芯片設計公司提供兼容、完善的EDA工具鏈,以及“在任何時間點、任何應用場景中,最適合他們、最具性價比的云資源”。
03.為客戶提供云端“超算”將仿真效率提升42倍
盡管EDA云平臺市場不斷壯大,但在半導體這樣一個極度追求穩(wěn)定性、數據安全的產業(yè),很多芯片設計公司對這樣一個新興產業(yè)抱有質疑。有芯片創(chuàng)企高管透露,芯片設計數據上云的安全性和云端任務的運算速度,是他對EDA云平臺最大的擔心。
面對質疑,陳熹回應稱,在數據存儲、運行和計算資源的可靠性上,大規(guī)模云較本地數據中心更加安全。在云的基礎架構上,其可靠性能夠達到六個九(99.9999%)甚至十三個九(99.99999999999%)的程度,這是本地數據中心很難達到的。
同時,速石科技的一站式IC設計云平臺從設計之初就進行了通盤考慮,添加了應用層面上、端到端的數據安全和數據加密功能。這些功能使云供應商和速石科技無法觸碰到客戶的芯片設計數據和數據資產,從技術架構上保障了客戶的信息安全。
陳熹稱,作為專業(yè)的云平臺廠商,速石科技能夠從流程、管理等方面給客戶一體式的數據安全保護。他強調:“客戶想到的問題我們都已經想到,并且有相應的解決方案;客戶還沒想到的問題,我們也有相應的流程和方案。”
在數據運行方面,如今的云技術也可以滿足芯片設計所需的算力和穩(wěn)定性。
以速石科技為例,其采用了專業(yè)計算領域較為先進的無服務器架構,有自己的調度器和并行文件系統(tǒng),相當于向芯片設計客戶提供一臺定制化的超級計算機。
2019年,速石科技就以1.1626 Petaflops的成績排名第482名,成為全球第二、亞洲唯一一家以公有云算力躋身超級計算機TOP500的公司。更重要的是,速石科技調度這一全球TOP500的超算算力,只花費了5530美元和4個小時,遠低于其他上榜超算,展現了云平臺的優(yōu)勢。
在實際應用中,速石科技也收獲了很多經典案例。
據陳熹分享,有小型芯片設計公司使用速石科技的全云架構方案,將在Synopsys HSpice工具上的仿真效率提升了42倍。原本需要30天的仿真流程,僅用17小時就順利完成。
2021年,速石科技成為了三星Foundry國內首家SAFE(Samsung Advanced Foundry Ecosystem)云合作伙伴。
陳熹透露,如今在半導體領域,速石科技已服務于中穎電子、納芯微、士蘭微、華大北斗、復旦大學等國內的企業(yè)與高校。速石科技也希望為芯片設計公司提供最優(yōu)秀的產品,成為其成長過程中最重要的合作伙伴。
04.結語:芯片設計所需算力不斷升級中立EDA云平臺或成脫困關鍵
上云是EDA行業(yè)一個長期的發(fā)展趨勢。隨著芯片制程的演進,芯片設計的成本快速上升,邏輯仿真、驗證、版圖設計所需算力規(guī)模不斷增加。本地數據中心的建造運維投入、專業(yè)IT人員的招募、安全系統(tǒng)的構建都是芯片設計公司需要面對的挑戰(zhàn)。
全球疫情下,EDA云平臺的價值更是凸顯。作為一個新興的供應鏈環(huán)節(jié),EDA云平臺正在高漲的下游需求中成長,成為EDA產業(yè)中的關鍵賽道之一。
你也許想了解具體的落地場景:
這樣跑COMSOL,是不是就可以發(fā)Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
續(xù)集來了:上回那個“吃雞”成功的IC人后來發(fā)生了什么?
這一屆科研計算人趕DDL紅寶書:學生篇
缺人!缺錢!趕時間!初創(chuàng)IC設計公司如何“絕地求生”?
速石科技獲元禾璞華領投數千萬美元B輪融資
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
速石科技成三星Foundry國內首家SAFE云合作伙伴
EDA云平臺49問
國內超算發(fā)展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
關于fastone云平臺在EDA及其他行業(yè)應用上的具體表現,可以點擊以下應用名稱查看:HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA │ MOE │ Virtuoso │ COMSOL
- END -
我們有個為應用定義的EDA云平臺
集成多種EDA應用,大量任務多節(jié)點并行
應對短時間爆發(fā)性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群
掃碼免費試用,送300元體驗金,入股不虧~