[지디넷코리아]
HPE가 엔비디아와의 협력을 기반으로 인공지능(AI)과 고성능컴퓨팅(HPC)을 결합한 차세대 인프라 전략을 본격화하며 대규모 AI 팩토리 및 엑사스케일 슈퍼컴퓨팅 시장에서 기술 주도권 확보에 나섰다.
HPE는 AI 팩토리 고도화를 지원하는 ‘HPE 기반 엔비디아 AI 컴퓨팅 포트폴리오’를 강화했다고 6일 밝혔다.
이번 발표는 AI 확장성과 배포 효율을 높이고 인사이트 도출 시간을 단축하는 데 초점을 맞췄다. 풀스택 AI 아키텍처를 통해 컴퓨트, 그래픽처리장치(GPU), 네트워킹, 액체 냉각, 소프트웨어(SW)를 통합하고 소버린 AI 환경까지 포괄하는 확장형 플랫폼으로 과학·산업 혁신을 가속한다는 목표다.

이번 협력의 핵심은 엔비디아 기술을 중심으로 한 풀스택 AI 인프라다. HPE는 통합 AI 시스템을 바탕으로 아르곤 국립 연구소, 독일 HLRS, 허드슨 리버 트레이딩(HRT), 한국과학기술정보연구원(KISTI) 등 주요 연구기관과 기업들에 해당 인프라를 제공하며 적용 사례를 확대 중이다.
특히 슈퍼컴퓨팅 영역에서 엔비디아 기술 도입에 속도를 낸다. HPE는 2세대 엑사스케일급 플랫폼 ‘HPE 크레이 슈퍼컴퓨팅 GX5000;에 업계 최초로 엔비디아 베라 중앙처리장치(CPU) 컴퓨트 블레이드를 적용했다고 밝혔다.
이는 최대 16개의 엔비디아 베라 CPU를 탑재하며 랙당 최대 640개 CPU와 5만 6000개 이상의 Arm 코어를 구성할 수 있어 초대형 AI 워크로드 대응이 가능하다. 여기에 엔비디아 퀀텀-X800 인피니밴드 네트워크를 적용해 포트당 800기가비피에스(Gb/s) 성능과 전력 효율성을 동시에 확보했다.
AI 팩토리 전략에서도 엔비디아 중심의 기술 고도화가 두드러진다. HPE는 엔비디아 베라 루빈 플랫폼과 블랙웰 아키텍처를 기반으로 서비스 프로바이더와 국가기관을 위한 AI 팩토리 포트폴리오를 확장했다. 특히 ‘HPE 기반 엔비디아 베라 루빈 NVL72’ 시스템은 72개의 루빈 GPU와 NV링크 네트워크, 슈퍼NIC, DPU를 통합해 초대형 AI 모델 학습을 지원한다.
또 다른 핵심 제품인 ‘HPE 컴퓨트 XD700’은 엔비디아 HGX 루빈 NVL8 기반으로, 랙당 최대 128개의 GPU를 지원하며 이전 세대 대비 두 배 이상의 집적도를 제공한다. 엔비디아 RTX 프로 6000 블랙웰 GPU도 전 포트폴리오에 확대 적용되며 AI 학습·추론 성능을 끌어올렸다.
SW와 생태계 측면에서도 엔비디아 중심 협력이 강화됐다. HPE AI 팩토리는 엔비디아 클라우드 파트너 프로그램 인증을 추진하며 클라우드 서비스 구축을 간소화하고 있다. 또 엔비디아 멀티 인스턴스 GPU(MIG)를 기반으로 수세 가상화와 랜처 프라임 스위트를 활용한 멀티 테넌시 환경을 지원해 서비스 유연성을 높였다.
레드햇과의 협력도 포함됐다. HPE AI 팩토리는 엔비디아 AI 엔터프라이즈와 통합된 레드햇 엔터프라이즈 리눅스 및 오픈시프트를 지원해 기업 환경에서의 운영 안정성과 확장성을 확보했다. 여기에 엔비디아 미션 컨트롤 소프트웨어를 적용해 워크로드 오케스트레이션부터 모니터링, 자율 복구까지 AI 운영 전반을 자동화한다.
HPE에 따르면 엔비디아 베라 CPU 기반 GX240 컴퓨트 블레이드와 퀀텀-X800 네트워킹은 내년에 출시될 예정이며 베라 루빈 NVL72 시스템은 올해 12월 공개된다. 아울러 XD700 서버는 내년 초 출시 예정이며 블랙웰 GPU 및 레드햇 통합 솔루션은 현재 이용 가능하다.
트리시 담크로거 HPE HPC·AI 인프라 솔루션 부문 수석부사장 겸 총괄은 “세계 최고 성능의 엑사스케일 슈퍼컴퓨터 3대를 구축한 우리는 최첨단 AI 워크로드와 기존 HPC를 결합해 과학적 혁신을 주도하고 있다”며 “엔비디아와의 지속적인 협력을 통해 고객이 의학·생명과학·엔지니어링·제조 등 다양한 분야에서 기존의 한계를 뛰어넘는 데 필요한 고성능 집적도를 확보할 수 있도록 지원하고 있다”고 밝혔다.
크리스 매리어트 엔비디아 엔터프라이즈 플랫폼 부문 부사장은 “기업과 국가가 AI의 잠재력을 실현하려면 대규모 모델 학습 및 HPC 워크로드를 처리할 인프라가 필수적”이라며 “HPE와 우리가 공동 개발한 풀스택 AI 인프라는 가속 컴퓨팅, 고도화된 네트워킹과 액체 냉각 기술을 결합해 대규모 및 소버린 환경에서 인사이트 도출 시간을 단축한다”고 말했다.
