
“上云正成為芯片設(shè)計(jì)產(chǎn)業(yè)的一個(gè)趨勢(shì)。”燧原科技IT負(fù)責(zé)人Vincent近日在接受數(shù)智前線采訪時(shí)表示。
不久前,速石科技聯(lián)合騰訊云為芯片設(shè)計(jì)企業(yè)燧原科技,打造了一個(gè)面向HPC(高性能計(jì)算)場(chǎng)景的行業(yè)解決方案。該方案基于速石科技的一站式芯片設(shè)計(jì)研發(fā)云平臺(tái),快速自動(dòng)地調(diào)用騰訊云IaaS資源構(gòu)建仿真環(huán)境,滿(mǎn)足了燧原科技的業(yè)務(wù)彈性需求,提升了整體的項(xiàng)目研發(fā)效率。
01 芯片設(shè)計(jì)產(chǎn)業(yè)上云正在成為趨勢(shì)
燧原科技作為國(guó)內(nèi)領(lǐng)先的AI芯片設(shè)計(jì)企業(yè),當(dāng)初創(chuàng)造過(guò)僅用18個(gè)月就將技術(shù)門(mén)檻很高的AI訓(xùn)練芯片一次性流片成功的紀(jì)錄。
但隨著工藝制程越來(lái)越先進(jìn),燧原也面臨著IT資源和效率無(wú)法滿(mǎn)足業(yè)務(wù)需要的矛盾。
芯片的研發(fā)周期通常都比較緊張,尤其是大芯片,中后期經(jīng)常是按天來(lái)做任務(wù)排期。而行業(yè)內(nèi)普遍采用的是自建IDC(數(shù)據(jù)中心),騰訊云高性能計(jì)算行業(yè)高級(jí)經(jīng)理Kevin告訴數(shù)智前線,這么做主要是當(dāng)時(shí)的芯片工藝沒(méi)那么先進(jìn),對(duì)算力的需求也沒(méi)那么大。
而且,燧原科技IT負(fù)責(zé)人Vincent透露,芯片項(xiàng)目在前期會(huì)做大量論證和規(guī)劃,包括需要多少算力和存儲(chǔ)。但問(wèn)題在于,在項(xiàng)目推進(jìn)過(guò)程中經(jīng)常會(huì)有變更,包括制程的改進(jìn)、功能變化及性能指標(biāo)調(diào)整。這種變更會(huì)造成大量突發(fā)的算力需求。如果要通過(guò)采買(mǎi)服務(wù)器或者是租借服務(wù)器的方式來(lái)滿(mǎn)足需求,從部署、上線測(cè)試,需要相當(dāng)長(zhǎng)的一段時(shí)間業(yè)務(wù)團(tuán)隊(duì)才能用上這些算力,影響研發(fā)進(jìn)度。
這樣的效率顯然是無(wú)法接受的。尤其是這幾年的疫情導(dǎo)致采買(mǎi)硬件的周期不可控,但芯片項(xiàng)目周期是明確的,這就意味著,芯片設(shè)計(jì)企業(yè)要面臨一個(gè)不確定的IT資產(chǎn)的風(fēng)險(xiǎn)。比如一天之內(nèi)要準(zhǔn)備一兩百臺(tái)服務(wù)器,只有上云才能夠做到,如果是原有的IT流程,從確認(rèn)服務(wù)器型號(hào)到采購(gòu),從安裝服務(wù)器上機(jī)柜到機(jī)房運(yùn)維,最快也要8到12周,而且IT資金占用成本太高。
“這是我們上云的一個(gè)契機(jī)吧。”Vincent提到。

大芯片設(shè)計(jì)周期超過(guò)12個(gè)月,包括產(chǎn)品定義、前端設(shè)計(jì)、IP驗(yàn)證、SOC驗(yàn)證、綜合、布局布線等多個(gè)階段,不同階段對(duì)算力的需求不相同。驗(yàn)證環(huán)節(jié)是算力使用的高峰期。所以,燧原也選擇將部分驗(yàn)證搬到云上,“前端IP驗(yàn)證的過(guò)程基本都上云了,后續(xù)我們肯定是希望把整個(gè)彈性的部分盡量都上云。”燧原科技項(xiàng)目負(fù)責(zé)人Eli說(shuō)。
燧原有大量彈性作業(yè)的需求,比如需要在同一個(gè)時(shí)間配置數(shù)百臺(tái)的服務(wù)器,對(duì)穩(wěn)定性和實(shí)時(shí)響應(yīng)的要求非常高。目前,騰訊云聯(lián)合速石可以做到讓客戶(hù)在1小時(shí)內(nèi)快速把仿真作業(yè)跑起來(lái),讓客戶(hù)在有限時(shí)間更頻繁地去跑仿真和驗(yàn)證任務(wù),提高流片前的成功率。同時(shí)基于速石對(duì)業(yè)務(wù)場(chǎng)景優(yōu)化和CAD方面的能力,幫助燧原整體Job運(yùn)行時(shí)間降低了50%,加快了整個(gè)項(xiàng)目的研發(fā)進(jìn)度。
而且,芯片設(shè)計(jì)行業(yè)如今已經(jīng)進(jìn)入到7nm甚至3nm時(shí)代,一顆芯片上會(huì)有幾百億級(jí)的晶體管,它對(duì)算力的需求會(huì)大大增加。這就意味著,芯片企業(yè)在高峰期的算力需求非常明顯,燧原等芯片設(shè)計(jì)企業(yè)開(kāi)始尋求彈性的算力解決方案。
“上云是一個(gè)行業(yè)趨勢(shì)。”Vincent說(shuō),“都在嘗試,但全部都上云還需要一些時(shí)間。”
02 安全、效率和成本的鐵三角
芯片設(shè)計(jì)企業(yè)最核心的是各種芯片代碼和知識(shí)產(chǎn)權(quán),相比于很多行業(yè),這個(gè)賽道對(duì)數(shù)據(jù)安全有著更高的要求。
燧原科技在上云的態(tài)度是,所有的數(shù)據(jù)要放在本地,只有彈性的部分在云上,中間不做數(shù)據(jù)存儲(chǔ)。所以,速石和騰訊云在燧原的建議和啟發(fā)下,大家探索出了“存算分離”的混合云計(jì)算架構(gòu),并且花了五六個(gè)月時(shí)間去驗(yàn)證。它能夠在保障核心數(shù)據(jù)、代碼存儲(chǔ)在本地的前提下,通過(guò)速石平臺(tái)與本地計(jì)算集群打通,使得計(jì)算任務(wù)能夠靈活選取本地或云端算力隊(duì)列。
速石高級(jí)技術(shù)總監(jiān)陳琳濤透露,此次采用的存算分離方案本質(zhì)上是一個(gè)混合云方案,速石提供的一站式芯片設(shè)計(jì)研發(fā)云平臺(tái)可擴(kuò)展到本地和云上,在純?cè)啤⒓儽镜亍⒒旌显迫N模式下都可交互。從技術(shù)范疇來(lái)說(shuō),速石的存算一體解決方案已經(jīng)十分成熟。但在燧原的項(xiàng)目中,該方案面臨進(jìn)一步的技術(shù)挑戰(zhàn),例如在整個(gè)混合云建設(shè)架構(gòu)上,對(duì)網(wǎng)絡(luò)的時(shí)延、帶寬的吞吐率和效率的要求都非常高,這就要求三方共同在這個(gè)項(xiàng)目里尋求最優(yōu)的架構(gòu)布置方式。
Vincent坦言,因?yàn)樽隽舜嫠惴蛛x的架構(gòu),數(shù)據(jù)在本地,所以企業(yè)對(duì)安全的擔(dān)憂會(huì)有降低。
以前的存算分離,是在同一自治域內(nèi),比如都在騰訊云上實(shí)現(xiàn)。但現(xiàn)在燧原的方案是在兩個(gè)自治域內(nèi),混合云部署,云上一部分,云下有一部分,云下是燧原在做,云上的部分是速石科技和騰訊云來(lái)做。不過(guò),這增加了物理距離,而且各種接口的調(diào)度變得更加復(fù)雜,更加考驗(yàn)云廠商和合作伙伴的能力。而速石平臺(tái)不改變用戶(hù)的使用習(xí)慣,讓使用者無(wú)感地調(diào)用云資源,對(duì)資源的調(diào)用更加便捷,減少上云的學(xué)習(xí)成本。
速石和騰訊云之前考慮的是直接把客戶(hù)的數(shù)據(jù)上云,方便高效。但溝通之后發(fā)現(xiàn),芯片客戶(hù)對(duì)數(shù)據(jù)安全的要求,還是采用混合云存算分離的架構(gòu)最為合適。騰訊云目前僅做算力的支撐,速石平臺(tái)提供自動(dòng)化高效的環(huán)境構(gòu)建,燧原的代碼等企業(yè)核心數(shù)據(jù)都是放在線下。不過(guò),在騰訊云架構(gòu)師Cedric看來(lái),有些不敏感的數(shù)據(jù)理論上可以上云,通過(guò)緩存技術(shù)來(lái)提高仿真效率。
Kevin告訴數(shù)智前線,早期初創(chuàng),存量數(shù)據(jù)和存量資產(chǎn)少,對(duì)安全沒(méi)那么大顧慮,使用全云方案是首選,但規(guī)模大了之后,很多企業(yè)則傾向采用混合云架構(gòu)。
而且,很多芯片設(shè)計(jì)企業(yè)以前就有很多IDC資產(chǎn),如何把原有的資源利用起來(lái),也是企業(yè)的訴求,可以比較好的平衡既有資產(chǎn)的投入,同時(shí)又兼顧云的彈性、靈活、快捷、便捷。“所以從這個(gè)角度上來(lái)說(shuō),混合云是目前來(lái)看一個(gè)比較好的選擇。”
像燧原并沒(méi)有將全部業(yè)務(wù)搬到云上,其中一部分依然用到了本地的算力,比如項(xiàng)目前期運(yùn)行還是更適合本地已有的算力。事實(shí)上,很多芯片設(shè)計(jì)企業(yè)還是以本地為主,云上做彈性的部分。
混合云的部署方式,對(duì)IT成本的節(jié)約也在逐漸成為共識(shí)。
燧原算過(guò)一筆賬,如果自己采買(mǎi)服務(wù)器、自建機(jī)房,按照三五年的周期財(cái)務(wù)進(jìn)行對(duì)比,每個(gè)月均攤的成本會(huì)比每個(gè)月上云均攤的成本更低。但如果從節(jié)省時(shí)間和人力、提升效率以及整體的綜合成本考慮,上云的優(yōu)勢(shì)還是非常明顯。因?yàn)樵撇恍枰姡膊恍枰约哼\(yùn)維,這部分都是省下來(lái)的,而且快速部署和彈性擴(kuò)容的能力,能讓研發(fā)人員提高效率,縮短研發(fā)周期。
除了采用存算分離的架構(gòu),騰訊云聯(lián)合速石也為燧原等芯片設(shè)計(jì)客戶(hù)打造了從終端到云端的完整安全方案。
在終端,騰訊云的零信任安全的iOA方案,可以保障燧原全國(guó)各地的研發(fā)人員,能無(wú)縫體驗(yàn)一致的仿真環(huán)境,同時(shí)確保終端安全、信息保護(hù)以及一些漏洞的保護(hù)。
在云端,使用了騰訊的主機(jī)安全,保障整個(gè)計(jì)算環(huán)境是安全授信的,通過(guò)這個(gè)部分確保整個(gè)計(jì)算過(guò)程不會(huì)有入侵、數(shù)據(jù)泄露、勒索病毒等等的問(wèn)題。甚至是傳輸層面,騰訊云與燧原之間有一條超大帶寬的網(wǎng)絡(luò)保障,確保了整個(gè)傳輸?shù)耐ǖ腊踩尚拧?/p>
不難發(fā)現(xiàn),通過(guò)存算分離的架構(gòu)和混合云的部署方案,既滿(mǎn)足了對(duì)彈性算力和效率的需要,又能滿(mǎn)足節(jié)約成本和數(shù)據(jù)安全的需要。而這些正是企業(yè)在上云和用云過(guò)程中最在意的方面。
目前,“存算分離”的混合云架構(gòu)已經(jīng)幫助燧原節(jié)省了可觀的IT投入,任務(wù)并發(fā)量可以通過(guò)云端彈性同步提高,同時(shí)部分仿真任務(wù)周期縮短30%~50%。

當(dāng)然,Eli也提到,現(xiàn)階段使用這一套三方共創(chuàng)的存算分離方案滿(mǎn)足了部分業(yè)務(wù)在彈性算力使用量上的需求。而下一步我們還要進(jìn)一步優(yōu)化,提升使用效率,“如何更高效的利用云上機(jī)器,如何契合業(yè)務(wù)使用進(jìn)行高效優(yōu)化,并遷移更多的業(yè)務(wù),是我們接下來(lái)要做的事情。”
關(guān)于fastone云平臺(tái)在各種EDA應(yīng)用上的表現(xiàn),可以點(diǎn)擊以下應(yīng)用名稱(chēng)查看:
- END -
我們有個(gè)IC設(shè)計(jì)研發(fā)云平臺(tái)
集成多種EDA應(yīng)用,大量任務(wù)多節(jié)點(diǎn)并行
應(yīng)對(duì)短時(shí)間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來(lái)幾個(gè)月甚至幾年,現(xiàn)在只需幾小時(shí)
5分鐘快速上手,拖拉點(diǎn)選可視化界面,無(wú)需代碼
支持高級(jí)用戶(hù)直接在云端創(chuàng)建集群
掃碼免費(fèi)試用,送200元體驗(yàn)金,入股不虧~

更多EDA電子書(shū)
歡迎掃碼關(guān)注小F(ID:imfastone)獲取

你也許想了解具體的落地場(chǎng)景:
王者帶飛LeDock!開(kāi)箱即用&一鍵定位分子庫(kù)+全流程自動(dòng)化,3.5小時(shí)完成20萬(wàn)分子對(duì)接
這樣跑COMSOL,是不是就可以發(fā)Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個(gè)分子要花多少錢(qián)
LS-DYNA求解效率深度測(cè)評(píng) │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事
155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算
怎么把需要45天的突發(fā)性Fluent仿真計(jì)算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對(duì)接2800萬(wàn)個(gè)分子
從4天到1.75小時(shí),如何讓Bladed仿真效率提升55倍?
從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?
關(guān)于為應(yīng)用定義的云平臺(tái):
芯片設(shè)計(jì)五部曲之二 | 圖靈藝術(shù)家——數(shù)字IC
芯片設(shè)計(jì)五部曲之一 | 聲光魔法師——模擬IC
【ICCAD2022】首次公開(kāi)亮相!國(guó)產(chǎn)調(diào)度器Fsched,半導(dǎo)體生態(tài)1.0,上百家行業(yè)用戶(hù)最佳實(shí)踐
解密一顆芯片設(shè)計(jì)的全生命周期算力需求
居家辦公=停工?nonono,移動(dòng)式EDA芯片設(shè)計(jì),帶你效率起飛
缺人!缺錢(qián)!趕時(shí)間!初創(chuàng)IC設(shè)計(jì)公司如何“絕地求生”?
續(xù)集來(lái)了:上回那個(gè)“吃雞”成功的IC人后來(lái)發(fā)生了什么?
一次搞懂速石科技三大產(chǎn)品:FCC、FCC-E、FCP
速石科技成三星Foundry國(guó)內(nèi)首家SAFE?云合作伙伴
EDA云平臺(tái)49問(wèn)
億萬(wàn)打工人的夢(mèng):16萬(wàn)個(gè)CPU隨你用
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500
