造芯、筑魂、創(chuàng)“天河” 他們書寫超算中國速度
黑色機柜被整齊排成數(shù)行,高速運轉(zhuǎn)的機器持續(xù)發(fā)出低沉的嗡鳴聲,星星點點的負載指示燈不斷閃爍……這里是“天河二號”的機房,碩大的超級計算機正在飛速運行。
過去的一年,新冠肺炎疫情席卷全球,來勢洶洶。憑借超強算力,“天河二號”助力藥物虛擬篩選,只用了3天時間便迅速定位了30余種潛在有效藥物。在“天河二號”上搭建的新冠肺炎CT影像智能診斷平臺,15秒即可完成一次CT圖像診斷,為抗擊疫情作出了重大貢獻。
作為幕后功臣,國防科技大學(xué)計算機學(xué)院“天河”高性能計算團隊(以下簡稱“天河”團隊)功不可沒。在剛剛過去的春節(jié)假期,團隊上下60余人堅守崗位,以這樣特殊的方式為祖國守歲。
肖立權(quán):用光互聯(lián)替代電互聯(lián)
肖立權(quán),“天河二號”副總設(shè)計師、“天河”團隊互聯(lián)通信方向負責人。
我國高性能計算起步較晚,要想趕上西方國家,唯有奮起直追。為了讓我國高性能計算早日趕超西方國家,肖立權(quán)一拼就是30年。
“走別人沒有走過的路很難,但我喜歡挑戰(zhàn)!”這是肖立權(quán)常說的一句話。20世紀末,大規(guī)模計算機系統(tǒng)中通常采用電互聯(lián)技術(shù),信息傳輸速率慢且易受干擾,影響系統(tǒng)穩(wěn)定性。這是我國研制千萬億次級超級計算機路上的一塊“絆腳石”。
搬開這塊“絆腳石”的最優(yōu)解決方案,就是用光互聯(lián)替代電互聯(lián),上級將這一重任交給了肖立權(quán)。
這條別人沒有走過的路,注定充滿坎坷。接下任務(wù)后,肖立權(quán)立即著手解決這項技術(shù)難題。然而,按照他的思路做出來的系統(tǒng)根本“跑不起來”。
“是哪里出了問題?”肖立權(quán)滿腦子都是問號,午休時閉上眼睛,他腦海中全是屏幕上滾動的數(shù)據(jù)。
“沒法睡!去實驗室!”架起示波器、邏輯分析儀,肖立權(quán)全神貫注地看著屏幕,生怕錯過關(guān)鍵數(shù)據(jù)。
解決方案被一次次提出,但又被一次次推翻。有一天,肖立權(quán)突然冒出一個想法:是不是數(shù)據(jù)傳輸有問題?這次靈光突現(xiàn),讓他一下找到了解決問題的“鑰匙”。由此,我國光互聯(lián)技術(shù)在大規(guī)模計算機系統(tǒng)中得到有效驗證,這為后續(xù)該技術(shù)在超級計算機系統(tǒng)中的應(yīng)用奠定了堅實基礎(chǔ)。
2013年,是“天河”團隊發(fā)展歷程中濃墨重彩的一年。當年6月,“天河二號”研制成功,登上了世界超級計算機排行榜的榜首。
同年11月,為升級“天河二號”系統(tǒng),肖立權(quán)和團隊成員展開了為期10個月的封閉式攻關(guān),力爭完成核心器件國產(chǎn)化替代。經(jīng)過這一輪攻關(guān),肖立權(quán)帶領(lǐng)“天河”團隊大幅提升了“天河二號”高速互聯(lián)通信系統(tǒng)的性能,使其運行速度達到當時國際商用互聯(lián)系統(tǒng)的2倍,為下一代超級計算機研制奠定了基礎(chǔ)。
郭揚:讓國之重器澎湃“中國芯”
“天河二號”的“成長環(huán)境”并不十分“友好”,長久以來,西方國家在這一領(lǐng)域?qū)ξ覈鴮崿F(xiàn)嚴格的技術(shù)封鎖。
曾有很長一段時間,我國信息系統(tǒng)軟、硬件受制于人的問題難以得到解決。為攻克這一難題,“天河”團隊再次奔赴戰(zhàn)場。
“天河”團隊微電子方向負責人、國防科技大學(xué)計算機學(xué)院研究員郭揚就是核心芯片這個戰(zhàn)位上的先鋒。
芯片制造技術(shù)是制造業(yè)的核心技術(shù),超級計算機所需的芯片更被譽為“皇冠上的明珠”。為了摘取這顆“明珠”,郭揚堅守了20余年。今年春節(jié),他依舊堅守崗位,在機柜間不停穿梭。在僅有幾十米寬的機房里,他每天可以走出數(shù)萬步。
運算速度(俗稱算力)和功耗是超級計算機芯片的核心指標。通常來說,要想實現(xiàn)更高算力,就需要在芯片中集成更多的晶體管,但這就會增加芯片面積和功耗。研制超級計算機芯片的難點在于,要在保證高算力的前提下,盡可能減少芯片的功耗。為了早日攻克這一難題,曾有一段時間,郭揚四處奔波,到軍隊內(nèi)外各地調(diào)研考察,出國參加學(xué)術(shù)交流活動,研究業(yè)內(nèi)發(fā)展趨勢,幾經(jīng)周折最終確定了走“基于自主指令集的異構(gòu)融合架構(gòu)”的技術(shù)路線。
這是一條崎嶇難走的路。研制自主指令集的處理器芯片,意味著研發(fā)團隊不僅要研制芯片,還必須同步研制出配套的編譯器、算法庫等全套軟件系統(tǒng)。若采用現(xiàn)成的指令集芯片,工作量將減少數(shù)倍。
“這條路必須走!跟在別人后面、走現(xiàn)成的路,已無法實現(xiàn)技術(shù)領(lǐng)先。這條路,我們就算披荊斬棘也要走!”郭揚說。
此外,他還帶領(lǐng)團隊攻克了芯片研制中的其他大量技術(shù)難題,在他們的不懈努力下,最終使新一代超算芯片性能比前一代芯片提升了10倍以上。
20余年,從反向設(shè)計起步,到正向設(shè)計前行,再到向自主創(chuàng)新跨越;從架構(gòu)設(shè)計,到前端驗證,再到后端實現(xiàn),郭揚和大家一路過關(guān)斬將,最終孕育出了芯片領(lǐng)域響當當?shù)摹帮w騰”品牌。
2017年,“天河二號”系統(tǒng)升級完成,當時國內(nèi)性能最優(yōu)的4000余顆“飛騰”芯片被裝在“天河二號”的“心臟”部位;在慶祝新中國成立70周年閱兵式上,嵌有“飛騰”芯片的多款戰(zhàn)機、導(dǎo)彈在天安門廣場亮相;2020年,北斗三號組網(wǎng)、嫦娥五號奔月、“天問一號”飛赴火星,這些裝備上都鑲嵌著“飛騰”的“中國芯”。
“未來,我和團隊還要繼續(xù)努力,讓更多國之重器澎湃‘中國芯’。”郭揚說。
譚郁松:實現(xiàn)國產(chǎn)系統(tǒng)零的突破
“飛騰”芯片不是孤軍奮戰(zhàn),“麒麟”操作系統(tǒng)是它的最佳搭檔,它也是“天河二號”的“靈魂”。它們一硬一軟,為“天河二號”搭臺唱戲。今年春節(jié)期間,負責系統(tǒng)調(diào)試的人員聚精會神地盯著屏幕,手指不停地敲擊著鍵盤。
忙碌之余,“天河”團隊國產(chǎn)基礎(chǔ)軟件方向負責人、國防科技大學(xué)計算機學(xué)院研究員譚郁松說:“麒麟是中國的傳統(tǒng)瑞獸,寓意吉祥和長壽。以它的名字命名,是希望系統(tǒng)能更好地為國家和人民服務(wù),最終能實現(xiàn)國產(chǎn)系統(tǒng)的自主創(chuàng)新和可持續(xù)發(fā)展!
“麒麟”是為超級計算機研制的服務(wù)器操作系統(tǒng)。其誕生之初,該團隊將這一操作系統(tǒng)和國際主流操作系統(tǒng)進行了比較,而后發(fā)現(xiàn)了不少問題。一時間,網(wǎng)絡(luò)上的質(zhì)疑聲此起彼伏。
怎么辦?
譚郁松覺得,光在實驗室里埋頭搞研究不行,必須要走出實驗室,在實踐中摸索前進。
當時,“麒麟”深陷質(zhì)疑聲中,推廣應(yīng)用十分困難!皠e人不用,我們自己先用。”從2011年開始,譚郁松帶領(lǐng)團隊成員,挨個給國防科技大學(xué)學(xué)員做工作,逐一幫助他們在電腦上安裝系統(tǒng)。一圈兒下來,超過3萬名學(xué)員的電腦上安裝了“麒麟”系統(tǒng)。系統(tǒng)適配了超過300多款筆記本終端及外接設(shè)備,為后續(xù)大規(guī)模推廣積累了豐富的經(jīng)驗。
經(jīng)過反復(fù)推廣、試用、驗證、升級,“麒麟”的用戶數(shù)量不斷攀升,連續(xù)多年成為活躍用戶量最多的國產(chǎn)操作系統(tǒng)。
成為國內(nèi)第一,只是第一步,要想趕超,必須爭分奪秒。多年來,對于譚郁松及其團隊成員來說,“5+2”“白+黑”已是常態(tài)。
在他們的努力下,如今“麒麟”操作系統(tǒng)已經(jīng)成為我國安全等級最高、應(yīng)用最廣的國產(chǎn)操作系統(tǒng),被成功應(yīng)用于各類國防裝備、重點信息系統(tǒng)上。
近年來,基于“飛騰”芯片、“麒麟”操作系統(tǒng)的服務(wù)器、臺式機、一體機、筆記本等系列產(chǎn)品,已在一些領(lǐng)域得到規(guī)模化應(yīng)用,為實現(xiàn)我軍信息系統(tǒng)自主可控、構(gòu)建安全可控的信息技術(shù)體系發(fā)揮了不可替代的重要作用。
◎劉于藍 本報記者 張 強