本文重點(diǎn):
傳統(tǒng)的HPC應(yīng)用的特殊性與昂貴硬件和大量基礎(chǔ)設(shè)施投入,成為高性能計(jì)算擁抱新技術(shù)、新平臺(tái)的兩大障礙。
隨著通用計(jì)算市場(chǎng)逐漸飽和,刺激各大云提供商的持續(xù)投入,終于讓高性能計(jì)算上云不再只是少數(shù)傳統(tǒng)玩家的專利。
數(shù)據(jù)量和業(yè)務(wù)類型的雙爆發(fā)使傳統(tǒng)的高性能計(jì)算集群,比如超級(jí)計(jì)算中心的模式,已經(jīng)很難跟上業(yè)務(wù)增長(zhǎng)的步伐。
云端高性能計(jì)算(Cloud HPC),顧名思義,就是在云計(jì)算平臺(tái)上運(yùn)行高性能計(jì)算的分析任務(wù)。
這個(gè)名詞,包括其近義詞:高性能計(jì)算云(HPC Cloud),何時(shí)開始使用并沒有一個(gè)公認(rèn)的說法。時(shí)至今日,在維基百科(英文)網(wǎng)站上也沒有這么一個(gè)詞條。稍微扯得上一點(diǎn)關(guān)系的是高性能計(jì)算 / 超級(jí)計(jì)算機(jī)詞條下的一個(gè)小節(jié):云中的高性能計(jì)算(HPC in the Cloud)。
然而從去年到今年,我們真真切切地感受到了這個(gè)詞要火起來的節(jié)奏。
作為標(biāo)志性的事件,我們看到了這個(gè)行業(yè)的第一份市場(chǎng)分析研究報(bào)告:來自Market Research Future的《CloudHPC市場(chǎng)研究報(bào)告——及2023年預(yù)測(cè)》。
讓我們一起來回顧一下Cloud HPC的發(fā)展歷程,面臨的挑戰(zhàn)以及未來發(fā)展趨勢(shì)。

云端高性能計(jì)算市場(chǎng)
(來源:Market Research Future)
傳統(tǒng)高性能計(jì)算:專用硬件/軟件庫
高性能計(jì)算是計(jì)算機(jī)科學(xué)領(lǐng)域發(fā)展的一個(gè)特殊分支,不同于我們平常接觸的通用計(jì)算。
傳統(tǒng)上,高性能計(jì)算主要應(yīng)用于大規(guī)模科學(xué)計(jì)算,例如天氣預(yù)報(bào)、石油勘探、汽車碰撞模擬、藥物研發(fā)等。這些任務(wù)通常是通過超級(jí)計(jì)算機(jī),或者大規(guī)模計(jì)算集群運(yùn)行,通過集群內(nèi)的各節(jié)點(diǎn)協(xié)同工作完成的。一個(gè)分析任務(wù)被分解為一系列的子任務(wù),分布到不同的節(jié)點(diǎn)上運(yùn)行。子任務(wù)之間經(jīng)常是緊耦合的,即需要緊密合作完成分析。
因此傳統(tǒng)的高性能計(jì)算集群通常需要很多特殊的硬件來加速節(jié)點(diǎn)間通訊:高帶寬、低延時(shí)、低CPU占用率的等等。其中代表性的技術(shù)就是Infiniband和RDMA,而不是我們通常所見的以太網(wǎng)。
此外,為了將集群資源抽象為一個(gè)統(tǒng)一的資源池,從而實(shí)現(xiàn)高效的并行計(jì)算,大多數(shù)的高性能計(jì)算應(yīng)用需要使用統(tǒng)一的開發(fā)庫,其中最流行的解決方案就是消息傳遞接口(MPI)。所有的進(jìn)程都必須通過開發(fā)庫提供的接口進(jìn)行相互通訊和數(shù)據(jù)交換。
另外,通常也需要專為高性能計(jì)算優(yōu)化的存儲(chǔ),比如Lustre,在此就不展開了。
傳統(tǒng)的HPC應(yīng)用的并發(fā)擴(kuò)展性與算法設(shè)計(jì)緊密相關(guān),因而通常并不能線性擴(kuò)展。
這些特殊性后期實(shí)際上成為了一把雙刃劍,一定程度上成為高性能計(jì)算擁抱新技術(shù)、新平臺(tái)的障礙。

高性能計(jì)算涉及領(lǐng)域(來源:ICHEC)
云計(jì)算崛起:成功?障礙?
早在十余年前,云計(jì)算剛剛起步,虛擬化大行其道的時(shí)候,就開始有熱烈的討論,是否要將虛擬化的浪潮引入高性能計(jì)算領(lǐng)域。當(dāng)時(shí)第一個(gè)大的顧慮,就是虛擬化帶來的性能損失,包括計(jì)算性能損耗和額外的網(wǎng)絡(luò)延時(shí)等等。
此外,前文提到的許多特殊硬件,也沒有好的虛擬化 / 多租戶方案。
最終結(jié)果:第一波沖擊,生不逢時(shí),波瀾不驚。
等到以亞馬遜(AWS)為代表的云計(jì)算崛起,通用云計(jì)算市場(chǎng)成為市場(chǎng)的寵兒,獲得了快速發(fā)展。用戶開始習(xí)慣在云計(jì)算平臺(tái)上部署 / 運(yùn)行各種不同類型的業(yè)務(wù)。
然而多年來通用計(jì)算業(yè)務(wù)的高速增長(zhǎng),一定程度上卻妨礙了高性能計(jì)算在云端的布局。
為什么?
當(dāng)通用計(jì)算市場(chǎng)需求快速增長(zhǎng)的時(shí)候,云提供商們會(huì)滿足于當(dāng)前的業(yè)務(wù),也就是所謂的“容易摘的果子”(low-hanging fruit)。像高性能計(jì)算這種需要昂貴硬件和大量基礎(chǔ)設(shè)施投入的新型業(yè)務(wù),自然就沒有理由得到重視。
因此長(zhǎng)期以來,云計(jì)算平臺(tái)上運(yùn)行的多是服務(wù)型應(yīng)用;包括后來容器技術(shù)和Kubernetes的流行,也是主要服務(wù)于這一類型應(yīng)用的。
計(jì)算密集型的用戶們只能靜待時(shí)機(jī)。
契機(jī):通用云計(jì)算市場(chǎng)成熟
這兩年來,隨著云計(jì)算技術(shù)逐漸成熟,市場(chǎng)開始慢慢飽和。不管是國(guó)際還是國(guó)內(nèi)市場(chǎng),都已經(jīng)出現(xiàn)了幾家大廠瓜分大部分市場(chǎng)的情況。
通用云計(jì)算風(fēng)光不再,新興的增長(zhǎng)點(diǎn)自然而然就會(huì)得到大家的青睞了;高性能計(jì)算上云終于到了瓜熟蒂落的時(shí)候。隨著各大云提供商的持續(xù)投入,高性能計(jì)算不只是少數(shù)傳統(tǒng)玩家的專利,而是作為一項(xiàng)新型服務(wù)(HPC-as-a-service)向普通用戶開放。
更多的新用戶也能夠利用高性能計(jì)算技術(shù) / 平臺(tái)拓展新的業(yè)務(wù),或者重構(gòu)現(xiàn)有的計(jì)算應(yīng)用,同時(shí)享受云端的擴(kuò)展性等福利。

微軟Azure上HPC技術(shù)支持的發(fā)展歷程(來源:Azure)
動(dòng)力:數(shù)據(jù)量和業(yè)務(wù)類型的雙爆發(fā)
一方面,傳統(tǒng)的高性能計(jì)算應(yīng)用仍在,然而要處理的數(shù)據(jù)量已今非昔比。
隨著數(shù)據(jù)采集設(shè)備的成本下降,以及存儲(chǔ)成本的白菜價(jià)趨勢(shì),近些年來數(shù)據(jù)量的增產(chǎn)實(shí)際上是爆發(fā)式的。傳統(tǒng)的高性能計(jì)算集群,比如超級(jí)計(jì)算中心的模式,已經(jīng)很難跟上業(yè)務(wù)增長(zhǎng)的步伐。
另一方面,更為重要的是,各種新型業(yè)務(wù)開始出現(xiàn),大大拓展了高性能計(jì)算的業(yè)務(wù)范疇。
其中就包括大家熟悉的,正在風(fēng)口上的人工智能(AI)和機(jī)器學(xué)習(xí)(ML)。還有基于人體全基因分析的精準(zhǔn)醫(yī)療,創(chuàng)新藥的研發(fā)模擬等等。
與之相配套的是大量新型硬件的出現(xiàn),比如針對(duì)通用計(jì)算的顯卡(GP-GPU),專為TensorFlow設(shè)計(jì)的TPU,以及各種FPGA專用芯片等等。僅剛剛過去的2018年,這樣的新硬件就不下數(shù)十種。
這些新型的硬件,在設(shè)計(jì)之初就充分考慮到了多租戶、虛擬化、容器化等新型的系統(tǒng)需求,對(duì)于云端高性能計(jì)算的快速增長(zhǎng)也是功不可沒的。

新型硬件:Google TPU(來源:Google)
趨勢(shì):巨大的市場(chǎng)潛力
盡管云端的高性能計(jì)算還存在這樣那樣的短板,市場(chǎng)的發(fā)展卻是勢(shì)不可擋。
大家開始在云端運(yùn)行各種高性能計(jì)算任務(wù),涉及生命科學(xué)、化工、人工智能、汽車設(shè)計(jì)、精準(zhǔn)醫(yī)療、數(shù)字圖像處理等各種科學(xué) / 商業(yè)計(jì)算場(chǎng)景。
高性能計(jì)算用戶也開始能享受到云計(jì)算平臺(tái)帶來的快速部署、可擴(kuò)展性、多租戶、按使用量付費(fèi)好處。
Market Research Future(MRFR)的調(diào)查表明,目前大概有25%的企業(yè)都有運(yùn)行高性能計(jì)算業(yè)務(wù),云端高性能計(jì)算在接下來的五年內(nèi)仍將保持高達(dá)21%的年均增長(zhǎng)率。
- END -
關(guān)于我們:
速石科技專為有高算力需求的企業(yè)級(jí)用戶提供一站式算力運(yùn)營(yíng)解決方案,幫助用戶提升10-20倍業(yè)務(wù)運(yùn)算效率,降低成本達(dá)到75%以上,加快市場(chǎng)響應(yīng)速度。目前主要應(yīng)用領(lǐng)域包括藥物研發(fā)、基因測(cè)序分析、半導(dǎo)體行業(yè)的EDA仿真及電路設(shè)計(jì)、汽車行業(yè)的自動(dòng)駕駛開發(fā)、虛擬碰撞試驗(yàn)以及AI人工智能。
想了解更多,可添加小F微信(ID:imfastone)
文章推薦:
>>AWS、阿里云、Azure、Google Cloud、華為云、騰訊云 各種云服務(wù)器價(jià)格收費(fèi)對(duì)比(上)
>>云資源中的低成本戰(zhàn)斗機(jī)——競(jìng)價(jià)實(shí)例,AWS、阿里云等六家云廠商完全用戶使用指南