-
제 64회 TOP500 슈퍼컴퓨터 랭킹 이야기기술이야기/HPC 및 AI 2024. 12. 4. 13:45
안녕하세요, 이스파이스 기술연구소입니다.
지난달 중순, SC24 행사에서 2024년 11월 제64회 TOP500 슈퍼컴퓨터 순위가 발표되었습니다.위 배경 사진은 이번 SC24가 있었던 애틀란타 행사장에 있던 장식(?)입니다. ㅎㅎ
이번 회차 역시 많은 변화와 새로운 동향이 반영된 흥미로운 순위였습니다. 이 글에서는 TOP500에서 제공한 공식 자료를 기반으로, 주요 변화와 기술 동향을 재구성하여 살펴보겠습니다.
함께 슈퍼컴퓨터 세계의 최신 트렌드를 훑어보시죠.각 페이지의 그림은 클릭하면 조금 더 크게 볼 수 있으니 참고하십시오.
일단 20위까지의 순위입니다.지난 4회차 동안 1위를 지켰던 Frontier를 능가한 El Capitan이 새로운 1위로 등극했습니다. El Capitan의 이론 성능은 2.75 Exa-flops, 실측 성능은 1.74 Exa-flops로, 그 규모는 실로 어마어마합니다. 단순히 H100 GPU의 이론 성능을 기준으로 계산해 보면, 약 40,990개의 H100 성능 합에 해당하는 수준입니다.
TOP500 전체 시스템의 성능 중 1위 시스템이 차지하는 비중은 무려 17.5%에 달합니다. 또한, Exa-flops 성능을 넘은 상위 1-3위 시스템의 합산 성능은 전체 500대 시스템 성능의 41%를 차지하며, 그 규모는 압도적입니다.
이번 회차에서 10위 내에 3대의 신규 시스템이 등재되었으며, 이 중 두 시스템은 미국 에너지부(Department of Energy, DOE) 산하 로렌스 리버모어 국립 연구소(LLNL)에 설치되었습니다. 또한, 이탈리아의 신규 대형 시스템이 5위에 이름을 올렸습니다.
20위까지의 순위를 보면, 일본의 소프트뱅크가 NVIDIA DGX 기반으로 구성된 두 대의 대형 시스템을 새롭게 등재했습니다. 독일과 미국 DOE 산하의 샌디아 국립 연구소(SNL)도 상위권에 새로운 시스템을 추가하며 경쟁에 가세했습니다. 그러나 상위 1-3위의 성능이 워낙 압도적이어서, 나머지 시스템과의 격차가 크게 느껴집니다.
특이한 점 중 하나는, 지난 회차에서 6위였던 스위스 슈퍼컴퓨팅 센터의 시스템이 성능 개선을 통해, 이전에 상위에 있던 핀란드 시스템을 넘어섰다는 것입니다. 한편, 현재 3위인 Aurora는 등장 당시 미완성 상태로 주목받았고, 완성 이후 성능 튜닝을 통해 더 높은 성능을 기록할 것으로 기대되었습니다. 그러나 예상과 달리 추가적인 순위 상승 없이 현 상태에 머물렀습니다.
20위 이내 시스템 중 HPE/Cray 기반 시스템이 10대를 차지하며 대형 HPC 시장에서 독보적인 위치를 재확인했습니다.TOP500 측에서 공식적으로 발표한 뉴스 번역입니다. 그냥 읽어 보시면 됩니다.
TOP500의 시작부터 이번 회차까지의 성능 그래프입니다.
갈색 점이 1위의 성능, 파란 점이 500위의 성능, 녹색 점은 500대 전체 합계입니다.1위 시스템은 대체로 4~5회차 동안 순위를 유지하다가 새로운 1위가 등장하는 주기를 보이고 있습니다. 이는 대략 2년에서 2년 반 간격으로 새로운 초대형 시스템이 등장하고 있다는 것을 의미합니다.
한편, 현재 500위 시스템의 성능은 과거 2011년경의 1위 성능에 해당할 정도로, 전체 시스템 성능이 비약적으로 향상되었습니다. 또한, 전체 합계 성능과 1위 시스템의 성능 간 격차가 점점 줄어들고 있어, 상위 시스템의 성능이 더욱 압도적으로 커지고 있음을 보여줍니다.
이와 같은 성능 향상은 프로세서와 가속기의 발전에도 기인하지만, 병렬 컴퓨팅의 특성상 더 많은 시스템 유닛의 집합으로 이루어진 대규모화가 주된 원인입니다. 이는 처리해야 할 연산량과 데이터의 증가가 이러한 변화를 이끌고 있음을 반영합니다.
국가별 통계입니다.국가별 통계의 의미는 점차 약화되고 있는 듯합니다. 특히, 미국의 중국 무역 제재로 인해 중국은 수년째 새로운 시스템을 TOP500에 등재하지 않고 있습니다. 비공식적으로는 대형 시스템 구축이 진행 중이라는 이야기가 있지만, 공식 등재가 이루어지지 않아 현재 차트에서 중국 데이터의 의미는 크게 줄어든 상황입니다. 반면, 유럽 국가들은 과거에 비해 적극적으로 시스템을 등재하며 존재감을 강화하고 있습니다.
대륙별로 신규 시스템을 보면 다음과 같습니다.북미, 아시아, 유럽에서 신규 등재된 시스템 수는 대체로 비슷한 수준을 보입니다. 다만, 1위 시스템을 보유한 미국은 성능 점유율에서 여전히 압도적인 우위를 유지하고 있습니다.
프로세서 세대별 통계입니다.프로세서 세대별 통계를 살펴보면, TOP500 순위가 500위까지 포함되다 보니 여전히 오래된 프로세서도 다수 포함되어 있습니다.
특히, AMD 프로세서의 점유율이 상당히 높다는 점이 눈에 띕니다. 이번 SC24 기간 중 Dell 행사에서 AMD는 전체 서버 시장 점유율이 30%를 넘어섰다고 발표하며, 시장에서의 빠른 성장을 강조했습니다. 이는 AMD의 약진과 더불어 Intel의 상대적인 부진을 보여주는 지표로 해석할 수 있습니다.신규 시스템에서 프로세서별 분류를 봐도 비슷한 양상입니다.
신규 시스템의 프로세서별 분류를 살펴보면, AMD의 점유율이 두드러집니다.
새롭게 등재된 시스템 중 약 34%가 AMD 프로세서를 채택했으며, 특히 대형 시스템에서 AMD의 채택률이 높게 나타납니다. SC24 기간 중 Dell 행사에서 AMD는 NVIDIA GPU를 사용하는 시스템에서도 AMD CPU가 Intel CPU보다 전반적인 성능이 우수하다고 발표했습니다. 이는 GPU 연산에서 필요한 전처리 작업과 같은 CPU 연산에서도 AMD가 더 우위를 점하고 있음을 보여줍니다.
가속기를 채택한 시스템의 비중은 꾸준히 증가하여, 현재 전체 시스템의 42%가 가속기를 활용하고 있습니다.수량 면에서는 NVIDIA 가속기가 여전히 강세를 보이고 있지만, AMD 가속기는 HPE/Cray의 초대형 시스템에 채택되면서 성능 점유율에서 압도적인 존재감을 드러내고 있습니다.
신규 시스템 중에서는 NVIDIA의 H200이 새롭게 등장했습니다.또한, SC24 직전 Dell이 세계 최초의 Blackwell(GB200) 시스템을 선적했다고 발표했으며, 이로 인해 다음 회차에서는 Blackwell 기반 시스템이 다수 등재될 가능성이 높아 보입니다.
병렬 연산에서 프로세스만큼 중요한 요소는 고속 네트워크입니다.
현재 200G InfiniBand가 가장 널리 사용되고 있으며, 100G Ethernet도 상당한 비중을 차지하고 있습니다. 성능 면에서는 대형 시스템에서 활용되는 HPE/Cray의 Slingshot-11이 가장 두드러집니다. Slingshot은 HPE/Cray가 기존 Ethernet을 개선하여 개발한 고성능 네트워킹 기술입니다.
신규 시스템을 살펴보면, 현재의 기술 추세를 확인할 수 있습니다.새롭게 구축되는 시스템에서는 400G NDR InfiniBand가 가장 널리 사용되며, NDR200 기반의 200G InfiniBand도 높은 채택률을 보이고 있습니다. 이더넷 역시 지연 시간을 줄이는 기술과 대역폭 증가를 통해 사용 빈도가 점차 늘어나고 있습니다. 특히, 작년 SC23 행사장에서 첫 움직임을 보였던 Ultra Ethernet 컨소시엄이 올해에는 더욱 활발한 활동을 이어가고 있는 것으로 보입니다.
업체별 점유율을 살펴보면, 기존과 크게 달라지지 않았습니다.Lenovo는 중소 규모 시스템에서 강세를 보이고 있으며, HPE/Cray는 대형 시스템에서 압도적인 점유율을 유지하고 있습니다. 유럽 시장에서 EVIDEN(구 Atos, Bull)은 꾸준히 영향력을 확대하고 있으며, Dell은 여전히 안정적인 위치를 유지하고 있습니다. 전체적으로는 Lenovo가 가장 많은 시스템을 보유하고 있지만, 100위 안에서는 4위에 그칩니다.
업체별 성능입니다.현재 HPE/Cray가 압도적으로 지배적인 위치를 차지하고 있습니다. 10여 년 전, 제가 이 분석을 시작했을 당시에는 IBM이 주요 주도 업체였지만, 현재 IBM은 시스템 구축에 대한 관심이 크게 줄어든 것으로 보입니다.
업체별 새로 구축하여 등재시킨 시스템입니다.이 시장의 전반적인 모습을 축약해 보여주는 사례라 할 수 있습니다.
다음은 현재 등록된 한국의 슈퍼컴퓨터 현황입니다.광주 슈퍼컴퓨터 센터에 Dell이 설치한 대형 시스템이 새롭게 등재된 점이 눈에 띕니다. 또한, 카카오와 SKT는 기존 시스템의 성능을 업그레이드하여 향상된 성능 값을 등록함으로써 순위를 높이는 데 성공했습니다. 이전에는 이런 사례가 드물었던 만큼, 매우 고무적인 발전이라 할 수 있습니다.
향후 국내에 구축될 대형 시스템으로는 KISTI 6호기와 내년에 예정된 기상청 6호기가 있습니다. KISTI 6호기는 가속기 포함 시스템, 기상청 6호기는 CPU 기반 시스템으로 구축될 예정인데, 두 시스템이 각각 어떤 성능을 보여줄지 기대됩니다.
이렇게 이번 64회 TOP500 순위를 훑어보았습니다. 아래는 제 나름의 이번 순위 요약입니다.실제 자료에서는 HPE로 표기되어 있지만, 이는 Cray를 인수한 HPE이며, HPC 분야에서는 여전히 Cray 멤버들이 활약하고 있기에 HPE/Cray로 표기했습니다. HPE/Cray는 글로벌 시장에서 독보적인 위치를 유지하고 있습니다.
현재 HPC 기술은 가속기와 InfiniBand를 보유한 NVIDIA가 선도하고 있지만, “AMD 프로세서 + AMD 가속기” 또는 “Intel 프로세서 + Intel 가속기” 조합의 초대형 시스템도 점차 증가하고 있습니다. 로렌스 리버모어 국립 연구소(LLNL), 영화 오펜하이머의 배경이 된 로스앨러모스 국립 연구소(LANL), 그리고 샌디아 국립 연구소(SNL) 등 미국 DOE 산하 연구소들은 이러한 시스템 도입에 적극적이며, 오픈소스 프로젝트의 발전에도 크게 기여하고 있습니다. 이로 인해 AMD와 Intel 가속기의 사용 환경도 점차 개선될 것입니다.
64회 TOP500 순위를 기반으로 한 이번 분석을 통해 HPC와 AI 기술이 어떻게 융합하고 발전하고 있는지를 살펴보았습니다.가속기 기반 AI 연산의 활용도가 높아지면서 전통적인 HPC 성능 지표인 TOP500에도 변화의 바람이 불고 있습니다.
SC24에서 열린 Bird of a Feather 세션 중 하나에서도 전통적인 HPC 성능 지표가 AI 시대에 얼마나 적절한지에 대한 열띤 논의가 이어졌습니다.TOP500이 AI 성능을 완벽히 반영한다고 보기는 어렵지만, 대규모 연산을 위한 HPC 기술 동향을 이해하는 데 있어 여전히 중요한 자료임은 분명합니다.
(주)이스파이스는 Dell Technologies의 Titanium 파트너로서, HPC/AI에 특화된 제품군과 서비스를 제공하고 있습니다.
또한, HPC/AI 연산에 최적화된 병렬 파일 시스템인 BeeGFS의 국내 유일의 파트너로 구축 및 서비스를 제공합니다.
관심있으신 분들은 전화 02-573-1484~5 혹은 이메일 espice@espice.co.kr로 연락주시기 바랍니다'기술이야기 > HPC 및 AI' 카테고리의 다른 글
AI와 HPC를 위한 최적의 솔루션: PowerEdge XE9680와 InfiniBand 네트워크 구축 사례 (0) 2024.12.10 제 63회 TOP500 수퍼컴퓨터 랭킹 분석 (2024.06) (0) 2024.05.21 제 62회 TOP500 수퍼컴퓨터 랭킹 분석 (2023.11) (0) 2023.12.05 제 60회 TOP500 슈퍼컴퓨터 랭킹 분석 (2022.11) (0) 2022.11.22 제59회 TOP500 슈퍼컴퓨터 랭킹 이야기 (2022.06) (0) 2022.06.10