登錄
微信登錄
打開手機微信,,掃描二維碼
掃描成功
請勿刷新本頁面,,按手機提示操作
中科曙光不會以任何理由要求您轉賬匯款,,謹防詐騙
您的微信還未注冊
中科曙光不會以任何理由要求您轉賬匯款,,謹防詐騙
您可以同時關注中科曙光微信公眾號
使用微信掃一掃即可登錄,! 查閱資料更方便,、 快捷!
您已經注冊賬號和
關注微信公眾號
2025年1月
服務熱線:400-810-0466
發(fā)布時間: 2013-02-02
相信很多人都對傳說中的“隱身衣”有著不同尋常的好奇,,這種只存在《哈利波特》中的魔法寶物是真的嗎?“隱身衣”到底是大自然的奇跡,,還是科學的力量,?深圳光啟高等理工研究院(以下簡稱光啟研究院)劉若鵬院長告訴記者:“隱身衣”是一種超材料技術研制、通過引導微波“轉向”防止物體被“發(fā)現”的科學產物,。
光啟研究院自2010年7月揭牌成立后,,吸引了多個國家和地區(qū)的杰出科學家,在充滿活力的交叉學科合作中,,建立起具有廣闊國際視角的科研環(huán)境,。不到兩年的時間內,光啟研究院已經成為中國超材料技術的領軍企業(yè),。
2011年,,光啟研究院全面啟動超材料制備與封裝技術重點實驗室等5個重點實驗室和超穎射頻技術工程實驗室等6個工程實驗室的建設,在光啟的實驗室中,,曙光GPU解決方案通過跨越“三重門”,,成為集群管理成功的關鍵。
三重考驗 挑戰(zhàn)集群管理操作能力
因為研發(fā)需要,,光啟研究院GPU集群所承擔的大部分科研工作需要使用CST Microwave studio2011,、 COMSOL 4.2和MATLAB三個軟件作大規(guī)模計算,三個軟件對集群的要求各具特色:
可用的CST Microwave Studio 2011版本在分布式計算時,,要求頭結點必須是Windows Server 2008 R2 操作系統(tǒng),,計算結點必須是LLinux系統(tǒng)。CST2011可以使用GPU加速,,單結點可以掛載多顆GPU,;自帶MPI通信工具;自帶作業(yè)調試器,。
而COMSOL4.2有兩類使用,,單個大作業(yè),、多個小作業(yè)。計算時需要調用MATLAB,,因此需要將MATLAB與COMSOL配置正確,,以使協(xié)同工作。
MATLAB 2011b 則需要支持GPU加速,,同時支持分布式并行計算,,自帶作業(yè)調度工具,客戶端不必登錄服務器就可以提交作業(yè),、查看結果,。
面對三個大型軟件同時工作時,普通的GPU根本無法滿足如此大規(guī)模的計算,,往往會陷入崩潰的狀況,。針對光啟研究院的特別需求,曙光公司迎難而上,,制定了一整套GPU解決方案。
一個集群管理軟件GridviewGridview PK多個工作調度
要滿足光啟研究院的需求,,既要整合三個軟件到同一個作業(yè)調度系統(tǒng)之中,,又要避免三個軟件使用各自調度器帶來的資源競爭和資源閑置。這是一個極具挑戰(zhàn)性的任務,,必須深入了解這兩款商業(yè)的軟件的架構,,實現無縫融合,讓軟件用戶感覺不到作業(yè)調試系統(tǒng)的改變,。
為此,,曙光公司研發(fā)人員認真研究了光啟的應用需求。光啟研究院的科學家是超材料的專家,,卻不是IT專家,,怎樣讓他們不必登錄集群、不必學習LLinux命令,,只需打開瀏覽器就可以直觀地提交作業(yè),、查看計算結果呢?光啟近二百位科學家?guī)缀趺刻於荚谑褂眉?,而且運算能力越高越好,,就需要GPU越多越好;光啟的機房剩余空間不多,,必須提供計算能力密集的服務器,;還要考慮同時配置Windows結點和Linux結點,以便使用CST2011,,兩類結點要統(tǒng)一調度,;而且單個作業(yè)需要使用多顆GPU,,GPU間通信需要高速互聯(lián)網絡……
最終,曙光公司決定使用集群管理軟件Gridview中的作業(yè)調度模塊替代CST2011和MATLAB 2011b 自帶的作業(yè)調度工具,,實現作業(yè)的統(tǒng)一調度,。曙光公司集群管理軟件Gridview支持定制開發(fā)portal,集群管理員可以快速開發(fā)出特定應用軟件的portal,。
而且曙光提供的GPU高性能解決方案系統(tǒng)中的大部分結點都部署了SUSE操作系統(tǒng),,少量結點部署windows server 2008 R2虛擬機。CST2011頭結點僅僅分發(fā)作業(yè),,并不承擔計算任務,,負載較輕,虛擬機即可勝任,。單個物理結點上部署多個虛擬機,,節(jié)約投資。
在有限的預算內,,曙光還配備了202塊NVIDIA Tesla C2050 GPU卡,,使CPU與GPU的數量達到1:1的最佳比例。每個主板上掛載兩顆GPU,,這兩顆GPU之間的通信不必通過網絡交換機,,使用本地內存即可完成,大大減少了通信開銷,,提高應用的擴展性,。
當GPU跨結點并行時,通信開銷往往成為性能提升的瓶頸,。為此,,曙光GPU高性能解決方案配置高帶寬低延時的InfiniBand QDR網絡互聯(lián)設備,任意結點之間都能達到全線速40Gbps,。采用極高密度的曙光GPU服務器,,在1U空間實現兩顆CPU+兩顆GPU的計算能力,使光啟研究院有效節(jié)省機房面積,,卻更快的提高了計算能力與計算速度,。
在光啟研究院項目準備、實施過程中,,曙光公司做了大量的定制研發(fā),,尤其是面對作業(yè)調度系統(tǒng)整合、極高密度GPU服務時,,充分體現出多年深耕高性能計算的實力,。曙光從單一服務器硬件供應商向“信息服務供應商”的轉型之路,漸行漸近。